scrapy 出现 [twisted.internet.error.TimeoutError:] 的几种解决方案

时间：2021-06-16 14:28:25 阅读：24 评论：0 收藏：0 [点我收藏+]

在使用 scapy 进行大批量爬取的时候，少数请求链接会出现请求超时，当出现请求超时时，爬虫会自动重试三次。

扩展，可以通过设置 RETRY_ENABLED = False 来关闭重试机制

若超过 180s 且三次后且还是没有得到数据，就会出现 twisted.internet.error.TimeoutError 错误。
技术分享图片

提供几种解决办法：

1、降低同时请求的数量

CONCURRENT_REQUESTS = 5

2、增加超时时间

DOWNLOAD_TIMEOUT = 2000

3、增加重试次数

RETRY_TIMES = 5

4、下载中间件中，捕获这个报错，并返回request，让它重新请求这个对象：

from twisted.internet.error import TimeoutError
def process_exception(self, request, exception, spider)：

    if isinstance(exception, TimeoutError):
                return request

scrapy 出现 [twisted.internet.error.TimeoutError:] 的几种解决方案

原文：https://blog.51cto.com/u_15018246/2908206

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)