首页 > 编程语言 > 详细

python分布式爬虫css选择器

时间:2017-10-08 21:12:49      阅读:281      评论:0      收藏:0      [点我收藏+]

css选择器:

 

excract_first  如果数组为空会抛出异常 用了这个函数之后,就不存在异常,如果提取不到就为空

 

 

 

技术分享

技术分享

技术分享


提取出 标题:

技术分享

======================================================================

:: 是css固定用法 用来提取内容

response.css(.entry-header h1::text).extract()[0]

 

技术分享

>>> response.css(p.entry-meta-hide-on-mobile::text).extract()[0]
\r\n\r\n            2017/02/18 ·  
>>> response.css(p.entry-meta-hide-on-mobile::text).extract()[0].strip()
2017/02/18 ·
>>> response.css(p.entry-meta-hide-on-mobile::text).extract()[0].strip().replace(·,  )
2017/02/18  

 

 技术分享

>>> response.css(.vote-post-up h10::text).extract()
[2]

技术分享

response.css(a[href="#article-comment"] span::text).extract()[0]
 7 评论

完整代码

 技术分享

 

python分布式爬虫css选择器

原文:http://www.cnblogs.com/Mjonj/p/7638428.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!