首页 > 其他 > 详细

菜鸡小南橙的成长之路----爬取国家税务总局纳税信用A级纳税人信息(股份有限公司)

时间:2020-04-26 10:56:40      阅读:195      评论:0      收藏:0      [点我收藏+]

网站爬虫不做过多介绍可参考博文:

https://blog.csdn.net/weixin_43636302/article/details/103830507

今天主要讲一下反反爬的思路。

博文的做法是通过post接口访问,但没有做反反爬处理

这个接口的时延很低但是会封ip,反爬措施做的很到位,别说是爬虫人手点快一点都会被封ip。

尝试过使用休息和代理ip池请求,效果不佳,由于客户需要数据只能采用“暴力模拟法”:

通过selenium+chrome+chromedriver模拟人点击过程,且强制休息等待时间。

经过测试还是能爬到可观的数据量的,但是长时间还是会"封页面"(和封ip不同,封ip会导致你在其他页面和浏览器都无法请求到数据)

目前已经获得2014--2018年纳税信用A级纳税人信息(股份有限公司)的所有信息 没有爬完 客户只需要这么多,后期考虑补充完整数据库。

 

菜鸡小南橙的成长之路----爬取国家税务总局纳税信用A级纳税人信息(股份有限公司)

原文:https://www.cnblogs.com/xiaonancheng/p/12776582.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!