首页 > 编程语言 > 详细

python静态网页爬虫之xpath

时间:2016-05-18 23:42:20      阅读:189      评论:0      收藏:0      [点我收藏+]

常用语句:

1.starts-with(@属性名称,属性字符相同部分)使用情形: 以相同的字符开头

<div id = ‘test-1‘>需要的内容1</div>

<div id = ‘test-2‘>需要的内容2</div>

<div id = ‘test-3‘>需要的内容3</div>

selector = etree.HTML(html)
content = selector.xpath(‘//div[start-with(@id,‘test‘)]/text()‘)

  

2.string(.) 使用情形:标签套标签

<div id=‘class3‘>美女,

  <font color=red>你微信号是多少?</font>

</div>

selector = etree.HTML(html)
data = selector.xpath(‘//div[@id=‘test3‘]‘)[0]   #先大后小
info = data.xpath(‘string(.)‘)
content = info.replace(‘\n‘,‘‘).replace(‘  ‘,‘‘)  #替换换行符和tab

  

python静态网页爬虫之xpath

原文:http://www.cnblogs.com/alan-babyblog/p/5506968.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!