XPath、Beautiful Soup

时间：2019-12-10 09:46:52 阅读：88 评论：0 收藏：0 [点我收藏+]

XPath的使用：

常用匹配规则：

/	从当前节点，选取子节点
//	从当前节点，选取子孙节点
.	选取当前节点
..	选择当前节点的父节点
@	选择属性

属性获取：

from lxml import etree
html = ‘<div><a class="du" href="http://www.baidu.com">百度</a></div>‘
parser = etree.HTML(html)
result = parser.xpath(‘//a[@class="du"]/@href‘)
print(result)

View Code

文本获取：

from lxml import etree
html = ‘<div><a class="du" href="http://www.baidu.com">百度</a></div>‘
parser = etree.HTML(html)
result = parser.xpath(‘//a[@class="du"]/text()‘)
print(result)

View Code

属性多值匹配：

from lxml import etree
html = ‘<div><a class="du baidu" href="http://www.baidu.com">百度</a></div>‘
parser = etree.HTML(html)
result = parser.xpath(‘//a[contains(@class,"du")]/text()‘)
print(result)

View Code

多属性匹配：

from lxml import etree
html = ‘<div><a name="item" class="du baidu" href="http://www.baidu.com">百度</a></div>‘
parser = etree.HTML(html)
result = parser.xpath(‘//a[contains(@class,"du") and @name="item"]/text()‘)
print(result)

View Code

按序选择：

from lxml import etree
html = """
        <li>item1</li>
        <li>item2</li>
        <li>item3</li>
        <li>item4</li>
        <li>item5</li>
"""
parser = etree.HTML(html)
result = parser.xpath(‘//li[1]/text()‘) #匹配第一个
print(result)
result = parser.xpath(‘//li[last()]/text()‘) #匹配最后一个
print(result)
result = parser.xpath(‘//li[position()<3]/text()‘) #匹配第一、第二个
print(result)
result = parser.xpath(‘//li[last()-2]/text()‘) #匹配倒数第三个
print(result)

View Code

更多用法：http://www.w3school.com.cn/xpath/xpath_functions.asp

XPath、Beautiful Soup

原文：https://www.cnblogs.com/py-peng/p/12014687.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)