首页 > Web开发 > 详细

网站反爬虫的原因和反反爬的手段

时间：2019-10-25 15:57:15 阅读：172 评论：0 收藏：0 [点我收藏+]

网站反爬虫的原因

　不遵守规范的爬虫会影响网站的正常使用
　网站上的数据是公司的重要资产
　爬虫对网站的爬取会造成网站统计数据的污染

常见反爬虫手段

　根据 IP 访问频率封禁 IP
　设置账号登陆时长，账号访问过多封禁
- 　设置账号的登录限制，只有登录才能展现内容
- 　设置账号登录的时长，时间一到则自动退出
　弹出数字验证码和图片确认验证码
- 　爬虫访问次数过多，弹出验证码要求输入
　对 API 接口的限制
- 　每天限制一个登录账户后端 api 接口的调用次数
- 　对后台 api 返回信息进行加密处理

反反爬的策略

　反反爬的总体思想
- 　将爬虫伪装成自然人的浏览行为
　自然人浏览的特点
- 　访问频率不会非常的高
- 　使用的是浏览器进行访问
- 　网站设置登录要求后仍能正常使用
- 　可以完成验证操作
　Scrapy 反反爬功能的实现
- 　爬虫配置 settings.py
- 　爬虫框架中间件

反反爬的手段

　模拟自然人访问频率

　配置 settings.py 控制爬虫爬取行为

配置	默认值	说明
DOWNLOAD_DELAY	0	单位秒爬取间隔时间为(0.5~1.5)*DOWNLOAD_DELAY
CONCURRENT_REQUESTS	16	Scrapy downloader 并发请求的最大值
CONCURRENT_REQUESTS_PER_DOMAIN	16	对单个网站进行并发请求的最大值
CONCURRENT_REQUESTS_PER_IP	0	对单个 IP 进行并发请求的最大值

　设置代理 IP
　设置随机 ua

网站反爬虫的原因和反反爬的手段

原文：https://www.cnblogs.com/JinZL/p/11738245.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！