“5+2 ” 结构 scrapy爬虫框架结构
engine 核心:控制所有模块之间的数据流,根据条件触发事件。
downloader:根据请求下载网页,不需要用户修改。
scheduler:所有爬取请求进行调度管理。不需要用户修改。
----Downloader Middleware 目的:实施Engine,Scheduler和Downloader之间进行用户可配置的控制
功能:修改,丢弃。新增请求或响应。
可以用户修改。
spider:解析Downloader返回的响应(Response)
产生爬取项(scraped item)
产生额外的爬取请求(request)
Item Pipelines :一流水线方式处理Spider产生的爬取项。由一组操作顺序组成,类似于流水线,每一个操作是一个Item Pipeline类型。可操作包括:清理,检验,和查重爬取项的HTML数据,将数据存储到数据库。需要编写配置代码。
--Spider Middleware 目的:请求和爬取项的再处理。功能:修改,丢弃,新增请求或爬取项。用户可以编写代码。
**************************************************************************************************
*****************************************************************************************************
Scrapy命令行:scrapy -h 执行
原文:https://www.cnblogs.com/dingh/p/13727153.html