4python 解析库的使用

时间：2019-05-21 16:25:28 阅读：127 评论：0 收藏：0 [点我收藏+]

4.1　　xml库

https://cuiqingcai.com/5545.html

XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的

lxml 操作xml

技术分享图片

from lxml import etree

#   https://cuiqingcai.com/5545.html
text = ‘‘‘
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </di>
‘‘‘

html=etree.HTML(text) #调用HTML类进行初始化构造了一个XPath解析对象;etree模块可以自动修正HTML文本
print(html)
result=etree.tostring(html)     #方法即可输出修正后的HTML代码，但是结果是bytes类型。这里利用decode()方法将其转成str类型
print(result.decode("utf-8"))

#另一中方式解析 html
print(‘----------------------------------------------------------‘)
html=etree.parse(‘./test.html‘,etree.HTMLParser())
result=etree.tostring(html)
print(result.decode())

html_xpath=html.xpath(‘//*‘)  #获取对应节点的内容
print(html_xpath)

Beautiful Soup

技术分享图片

4python 解析库的使用

原文：https://www.cnblogs.com/x2x3/p/10887388.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)