首页 > 其他 > 详细

Scrapy系列教程(6)------怎样避免被禁

时间:2018-02-22 21:03:45      阅读:253      评论:0      收藏:0      [点我收藏+]

避免被禁止(ban)

有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。

与这些规则打交道并不easy,须要技巧,有时候也须要些特别的基础。 假设有疑问请考虑联系?商业支持?。

以下是些处理这些网站的建议(tips):

  • 使用user agent池。轮流选择之中的一个来作为user agent。

    池中包括常见的浏览器的user agent(google一下一大堆)

  • 禁止cookies(參考?COOKIES_ENABLED),有些网站会使用cookies来发现爬虫的轨迹。

  • 设置下载延迟(2或更高)。

    參考?DOWNLOAD_DELAY?设置。

  • 假设可行,使用?Google cache?来爬取数据,而不是直接訪问网站。
  • 使用IP池。比如免费的?Tor项目?或付费服务(ProxyMesh)。
  • 使用高度分布式的下载器(downloader)来绕过禁止(ban),您就仅仅须要专注分析处理页面。这种样例有:?Crawlera

Scrapy系列教程(6)------怎样避免被禁

原文:https://www.cnblogs.com/zhchoutai/p/8459896.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!