Scrapy设置(settings)提供了定制Scrapy组件的方法,可以控制包括核心(core),插件(extension),pipeline以及spider组件。
官方文档:https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref
(1)默认:"scrapybot"
(2)当使用startproject命令创建项目时其也被自动赋值
(1)默认:100
(2)Item Processor(即Item Pipeline)同时处理(每个response的)item的最大值
(1)默认:16
(2)Scrapy downloader并发送请求(concurrent requests)的最大值
(1)默认:
{ ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘, ‘Accept-Language‘: ‘en‘, }
(2)Scrapy HTTP Request使用的默认header
(1)默认:0
(2)爬取网站最大允许的深度(depth)值。如果为0,则表示没有限制
(1)默认:0
(2)下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度,减轻服务器压力。同时支持小数:`DOWNLOAD_DELAY=0.25`
(3)默认情况下,Scrapy在两个请求间不等待一个固定的值, 而是使用0.5到1.5之间的一个随机值 * DOWNLOAD_DELAY 的结果作为等待间隔
(1)默认:180
(2)下载器超时时间(单位:秒)
(1)默认:{}
(2)保存项目中启用的pipeline及其顺序的字典。该字典默认为空,值(value)任意,值习惯设置在0~1000范围内,值越小优先级越高。
ITEM_PIPELINES = { ‘mySpider.pipelines.SomethingPipeline‘: 300, ‘mySpider.pipelines.JsonPipeline‘: 800, }
(1)默认:True
(2)是否启用logging
(1)默认:"utf-8"
(2)logging使用的编码
(1)默认:"DEBUG"
(2)log的最低级别,可选的级别有:CRITICAL、ERROR、WARNING、INFO、DEBUG
(1)默认:"Scrapy/VERSION (+http://scrapy.org)"
(2)爬取的默认User-Agent,除非被覆盖
PROXIES = [ {‘ip_port‘: ‘111.11.228.75:80‘, ‘password‘: ‘‘}, {‘ip_port‘: ‘120.198.243.22:80‘, ‘password‘: ‘‘}, {‘ip_port‘: ‘111.8.60.9:8123‘, ‘password‘: ‘‘}, {‘ip_port‘: ‘101.71.27.120:80‘, ‘password‘: ‘‘}, {‘ip_port‘: ‘122.96.59.104:80‘, ‘password‘: ‘‘}, {‘ip_port‘: ‘122.224.249.122:8088‘, ‘password‘:‘‘}, ]
(1)禁用Cookies
原文:https://www.cnblogs.com/nuochengze/p/12877058.html