首页 > 其他 > 详细

提升Scrapy框架爬取数据效率的五种方式

时间:2019-05-09 19:28:54      阅读:291      评论:0      收藏:0      [点我收藏+]

1、增加并发线程开启数量

  settings配置文件中,修改CONCURRENT_REQUESTS = 100,默认为32,可适当增加;

2、降低日志级别

  运行scrapy时会产生大量日志占用CPU,为减少CPU使用率,可修改log输出级别

  settings配置文件中LOG_LEVEL=‘ERROR‘ 或 LOG_LEVEL = ‘INFO‘ ;

3、禁止cookie

  scrapy默认自动保存cookie,占用CPU,如果不是真的需要cookie,可设置为不保存cookie,以减少CPU使用率,

  settings配置文件中:COOKIES_ENABLED = False 解开注释

4、禁止请求重试:

  对于失败的请求会重新发送,则会减慢爬取速度,因此可以在对丢失少量数据也不影响时,禁止重试,

  settings配置文件中加:RETRY_ENABLED = False ;

5、减少下载超时:

  如果对一个非常慢的链接进行爬取,减少下载超时可以让卡住的链接快速被放弃,从而提升效率,

  在settings配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 设置超时时间;

提升Scrapy框架爬取数据效率的五种方式

原文:https://www.cnblogs.com/jayxuan/p/10840068.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!