什么是xml:
定义:可扩展标记语言
特点:xml具有自描述结构的半结构化数据。
作用:xml主要设计总之是用来传输数据,还可以做为一些应用的配置文件
xml和html的区别:
什么是xpath
练手:
from lxml import etree #解析字符串 text = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a><li> <li class="item-1"><a href="link2.html">second item</a><li> <li class="item-inactive"><a href="link3.html">third item</a><li> <li class="item-1"><a href="link4.html">fourth item</a><li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> """ #把字符串变成element对象 #就是讲一个xml文档字符串解析成html内容方法 tree = etree.HTML(text) print(tree)#Element #把element对象变成字符串 # print(etree.tostring(tree,pretty_print=True).decode(‘utf-8‘)) #element对象可以调用xpath方法来筛选内容 #选取标签内容 a_text = tree.xpath(‘//a[@href="link1.html"]/text()‘) # print(a_text)#[‘first item‘] # element.xpath()-->返回值是一个list #选取属性 a_href = tree.xpath(‘//ul/li[@class="item-inactive"]/a/@href‘) print(a_href) ‘‘‘ <html> <body><div> <ul> <li class="item-0"><a href="link1.html">first item</a></li><li> </li><li class="item-1"><a href="link2.html">second item</a></li><li> </li><li class="item-inactive"><a href="link3.html">third item</a></li><li> </li><li class="item-1"><a href="link4.html">fourth item</a></li><li> </li><li class="item-0"><a href="link5.html">fifth item</a></li><li> </li></ul> </div> </body> </html>‘‘‘
原文:https://www.cnblogs.com/bug-king/p/11973159.html