XPath 是一门在 XML 文档中查找信息的语言。XPath 利用路径表达式在 XML 文档中举行导航 。XPath 包罗一个尺度函数库 。XPath 是 XSLT 中的重要元素 。XPath 是一个 W3C 尺度 。
选取属性。
在下面的表格中,我们已列出了一些路径表达式以及表达式的效果:
路径表达式
效果
bookstore
选取 bookstore 元素的全部子节点。
/bookstore
选取根元素 bookstore。解释:如果路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
bookstore/book
选取属于 bookstore 的子元素的全部 book 元素。
//book
选取全部 book 子元素,而不管它们在文档中的位置。
bookstore//book
选择属于 bookstore 元素的子女的全部 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang
选取名为 lang 的全部属性。
谓语(Predicates)
谓语用来查找某个特定的节点大概包罗某个指定的值的节点。
谓语被嵌在方括号中。
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的效果:
路径表达式
效果
/bookstore/book[1]
选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]
选取属于 bookstore 子元素的末了一个 book 元素。
/bookstore/book[last()-1]
选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]
选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]
选取全部拥著名为 lang 的属性的 title 元素。
//title[@lang='eng']
选取全部 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]
选取 bookstore 元素的全部 book 元素,且此中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title
选取 bookstore 元素中的 book 元素的全部 title 元素,且此中的 price 元素的值须大于 35.00。
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
通配符
形貌
匹配任何元素节点。
@*
匹配任何属性节点。
node()
匹配任何范例的节点。
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的效果:
路径表达式
效果
/bookstore/*
选取 bookstore 元素的全部子元素。
//*
选取文档中的全部元素。
//title[@*]
选取全部带有属性的 title 元素。
选取多少路径
通过在路径表达式中利用"|"运算符,您可以选取多少个路径。
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的效果:
路径表达式
效果
//book/title | //book/price
选取 book 元素的全部 title 和 price 元素。
//title | //price
选取文档中的全部 title 和 price 元素。
/bookstore/book/title | //price
选取属于 bookstore 元素的 book 元素的全部 title 元素,以及文档中全部的 price 元素。
4.xpath 轴
轴可界说相对于当前节点的节点集。
轴名称
效果
ancestor
选取当前节点的全部先辈(父、祖父等)。
ancestor-or-self
选取当前节点的全部先辈(父、祖父等)以及当前节点自己。
attribute
选取当前节点的全部属性。
child
选取当前节点的全部子元素。
descendant
选取当前节点的全部子女元素(子、孙等)。
descendant-or-self
选取当前节点的全部子女元素(子、孙等)以及当前节点自己。
following
选取文档中当前节点的竣事标签之后的全部节点。
namespace
选取当前节点的全部定名空间节点。
parent
选取当前节点的父节点。
preceding
选取文档中当前节点的开始标签之前的全部节点。
preceding-sibling
选取当前节点之前的全部同级节点。
self
选取当前节点。
5.xpath运算符
下面列出了可用在 XPath 表达式中的运算符:
运算符
形貌
实例
返回值
盘算两个节点集
//book | //cd
返回全部拥有 book 和 cd 元素的节点集
+
加法
6 + 4
10
-
减法
6 - 4
2
乘法
6 * 4
24
div
除法
8 div 4
2
=
即是
price=9.80
假如 price 是 9.80,则返回 true。假如 price 是 9.90,则返回 false。
!=
不即是
price!=9.80
假如 price 是 9.90,则返回 true。假如 price 是 9.80,则返回 false。
<
小于
price<9.80
假如 price 是 9.00,则返回 true。假如 price 是 9.90,则返回 false。
<=
小于或即是
price<=9.80
假如 price 是 9.00,则返回 true。假如 price 是 9.90,则返回 false。
>
大于
price>9.80
假如 price 是 9.90,则返回 true。假如 price 是 9.80,则返回 false。
>=
大于或即是
price>=9.80
假如 price 是 9.90,则返回 true。假如 price 是 9.70,则返回 false。
or
或
price=9.80 or price=9.70
假如 price 是 9.80,则返回 true。假如 price 是 9.50,则返回 false。
and
与
price>9.00 and price<9.90
假如 price 是 9.80,则返回 true。假如 price 是 8.50,则返回 false。
mod
盘算除法的余数
5 mod 2
1
好了,xpath的内容就这么多了。接下来我们要先容一个神器lxml,他的速率很快,曾经不停是我利用beautifulsoup时最钟爱的剖析器,没有之一,由于他的速率简直比其他的html.parser 和html5lib快了很多。
二、lxml
1.lxml安装
lxml 是一个xpath格式剖析模块,安装很方便,直接pip install lxml 大概easy_install lxml即可。
2.lxml 利用
lxml提供了两种剖析网页的方式,一种是你剖析本身写的离线网页时,另一种 则是剖析线上网页。
导入包:
from lxml import etree
1.剖析离线网页:
html=etree.parse('xx.html',etree.HTMLParser())
aa=html.xpath('//*[@id="s_xmancard_news"]/div/div[2]/div/div[1]/h2/a[1]/@href')
print(aa)
2.剖析在线网页:
from lxml import etree
import requests
rep=requests.get('http://www.baidu.com')
html=etree.HTML(rep.text)
aa=html.xpath('//*[@id="s_xmancard_news"]/div/div[2]/div/div[1]/h2/a[1]/@href')
print(aa)
那么我们怎么获取这些标签和标签对应的属性值了,很简朴,起首获取标签只需你如许做:
然后我们可以,比方说,你要获取a标签内的文本和它的属性href所对应的值,有两种方法,
1.表达式内获取
aa=html.xpath('//*[@id="s_xmancard_news"]/div/div[2]/div/div[1]/h2/a[1]/text()')
ab=html.xpath('//*[@id="s_xmancard_news"]/div/div[2]/div/div[1]/h2/a[1]/@href')
2.表达式外获取
aa=html.xpath('//*[@id="s_xmancard_news"]/div/div[2]/div/div[1]/h2/a[1]')
aa.text
aa.attrib.get('href')
如许就完成了获取,怎么样,是不是很简朴了,哈哈哈。
下面再来lxml的剖析规则:
表达式
形貌
nodename
选取此节点的全部子节点
/
从当前节点选取直接子节点
//
从当前节点选取子孙节点
选取当前节点
选取当前节点的父节点
@
选取属性
html = lxml.etree.HTML(text)
#利用text构造一个XPath剖析对象,etree模块可以主动修正HTML文本
html = lxml.etree.parse('./ex.html',etree.HTMLParser())
#直接读取文本举行剖析
from lxml import etree
result = html.xpath('//*')
#选取全部节点
result = html.xpath('//li')
#获取全部li节点
result = html.xpath('//li/a')
#获取全部li节点的直接a子节点
result = html.xpath('//li//a')
#获取全部li节点的全部a子孙节点
result = html.xpath('//a[@href="link.html"]/../@class')
#获取全部href属性为link.html的a节点的父节点的class属性
result = html.xpath('//li[@class="ni"]')
#获取全部class属性为ni的li节点
result = html.xpath('//li/text()')
#获取全部li节点的文本
result = html.xpath('//li/a/@href')
#获取全部li节点的a节点的href属性
result = html.xpath('//li[contains(@class,"li")]/a/text())
#当li的class属性有多个值时,需用contains函数完成匹配
result = html.xpath('//li[contains(@class,"li") and @name="item"]/a/text()')
#多属性匹配
result = html.xpath('//li[1]/a/text()')
result = html.xpath('//li[last()]/a/text()')
result = html.xpath('//li[position()<3]/a/text()')
result = html.xpath('//li[last()-2]/a/text()')
#按序选择,中括号内为XPath提供的函数
result = html.xpath('//li[1]/ancestor::*')
#获取先人节点
result = html.xpath('//li[1]/ancestor::div')
result = html.xpath('//li[1]/attribute::*')
#获取属性值
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
#获取直接子节点
result = html.xpath('//li[1]/descendant::span')
#获取全部子孙节点
result = html.xpath('//li[1]/following::*[2]')
#获取当前节点之后的全部节点的第二个
result = html.xpath('//li[1]/following-sibling::*')
#获取后续全部同级节点
3.lxml案例
为了偷懒,小编决定照旧接纳urllib那篇文章的代码,哈哈哈,机警如我。
好了,本日就讲这么多,各人感爱好的话可以多多关注哦,出色不绝息!!!!
本文参考文献:
http://www.w3school.com.cn/
想学习更多前端、Python爬虫、大数据等盘算机知识,请前去:http://pdcfighting.com/返回搜狐,检察更多