首页 > 其他 > 详细

xml

时间:2019-09-08 10:05:52      阅读:65      评论:0      收藏:0      [点我收藏+]
  • lxml

    用于获取非结构化数据
    lxml模块可以利用XPath规则语法,来快速的定位HTML\XML 文档中特定元素以及获取节点信息(文本内容、属性值)
    XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。
    提取xml、html中的数据需要lxml模块和xpath语法配合使用

基于xpath语法
技术分享图片
配合使用:谷歌浏览器中的xpath helper插件,使用chrome插件选择标签时候,选中时,选中的标签会添加属性class="xh-highlight" ,所选部分就会高亮显示
语法:

选择所有的h2下的文本
//h2/text()
获取所有的a标签的href的值
//a/@href
获取html下的head下的title的文本
/html/head/title/text()
获取html下的head下的link标签的href
/html/head/link/@href

技术分享图片
技术分享图片
技术分享图片
技术分享图片

xml

原文:https://www.cnblogs.com/0916m/p/11484356.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!