首页 > 其他 > 详细

爬虫解析库快速归纳

时间:2019-04-23 16:31:41      阅读:118      评论:0      收藏:0      [点我收藏+]

XPath

  • XPath也叫XML路径语言,用来搜索XML文档
  • 在python中,一般使用lxml库来实现XPath解析:
from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())  # 加载目标HTML文档
# 定位节点
result = html.xpath('//span')  # 常规节点搜索,返回值为节点列表
result = html.xpath('//span[@class="xxx"]')  # 在搜索时可以利用@进行属性过滤
# 获取信息
result = html.xpath('//span[@class="xxx"]/text()')  # 获得节点内的文本
result = html.xpath('//span/@class')  # 获得节点属性
# 高级过滤(函数过滤)
result = html.xpath('//span[contains(@class, "li")]')  # 搜索属性class中包含字符"li"的span节点
    # ?上面这种方式在某个节点的某个属性有多个值时经常用到,如某个节点的class属性通常有多个
result = html.xpath('//span[contains(@class, "li") and @name="item"]')  # 多属性匹配

Beautiful Soup

  • Beautiful Soup是在其他解析器(包括lxml)的基础之上构建的强大的python解析工具
  • Beautiful Soup 4 Document

爬虫解析库快速归纳

原文:https://www.cnblogs.com/lokvahkoor/p/10756947.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!