1 from lxml import etree 2 text=‘‘‘ 3 html页面内容 4 ‘‘‘ 5 tree = etree.HTML(text)---返回值就是一个element对象 6 #element对象有xpath方法,可以通过xpath表达式来筛选内容。 7 #选取class属性为item-1的li下面的a标签的内容 8 a_contents = tree.xpath(‘//li[@class="item-1"]/a/text()‘) 9 10 将element对象变成字符串的方法 11 # html_str = etree.tostring(tree,pretty_print=True).decode(‘utf-8‘) 12 # print(type(html_str))
from lxml import etree #parse方法是按照xml的方式来解析,如果语法出问题,就会报错。 html = etree.parse(‘demo.html‘) # print(html)#_ElementTree li_texts = html.xpath(‘//li/a/text()‘) print(li_texts)
原文:https://www.cnblogs.com/Tree0108/p/12074912.html