首页 > 微信 > 详细

06 使用代理爬取搜狗微信文章

时间:2017-11-25 10:51:19      阅读:278      评论:0      收藏:0      [点我收藏+]

参考:静觅丨崔庆才的个人博客

 

项目地址:copywang/spiders_collection

 

实现功能

  1. 根据登陆后的cookie制作header,请求搜索微信文章
  2. url需要使用urlencode拼接
  3. 使用代理避免IP被封
  4. 使用pyquery解析得到需要的字段信息
  5. 爬取文章详情页并存储到MongoDB

步骤

  1. 制作cookie,拼接URL
  2. 获取每一页的html代码
  3. 从每一页的html代码解析得到具体文章的url
  4. 获取具体文章的url,解析得到需要的信息

收获

  1. 使用pyquery
  2. 使用代理IP
  3. 异常处理

06 使用代理爬取搜狗微信文章

原文:http://www.cnblogs.com/copywang/p/7894522.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!