from lxml import etree
html = etree.parse('./test.html', etree.HTMLParser()) # 加载目标HTML文档
# 定位节点
result = html.xpath('//span') # 常规节点搜索,返回值为节点列表
result = html.xpath('//span[@class="xxx"]') # 在搜索时可以利用@进行属性过滤
# 获取信息
result = html.xpath('//span[@class="xxx"]/text()') # 获得节点内的文本
result = html.xpath('//span/@class') # 获得节点属性
# 高级过滤(函数过滤)
result = html.xpath('//span[contains(@class, "li")]') # 搜索属性class中包含字符"li"的span节点
# ?上面这种方式在某个节点的某个属性有多个值时经常用到,如某个节点的class属性通常有多个
result = html.xpath('//span[contains(@class, "li") and @name="item"]') # 多属性匹配
原文:https://www.cnblogs.com/lokvahkoor/p/10756947.html