Scrapy爬虫框架

时间：2020-09-24 23:14:13 阅读：71 评论：0 收藏：0 [点我收藏+]

“5+2 ” 结构 scrapy爬虫框架结构

engine 核心：控制所有模块之间的数据流，根据条件触发事件。

downloader：根据请求下载网页，不需要用户修改。

scheduler：所有爬取请求进行调度管理。不需要用户修改。

----Downloader Middleware 目的：实施Engine，Scheduler和Downloader之间进行用户可配置的控制

功能：修改，丢弃。新增请求或响应。

可以用户修改。

spider：解析Downloader返回的响应（Response）

产生爬取项（scraped item）

产生额外的爬取请求（request）

Item Pipelines :一流水线方式处理Spider产生的爬取项。由一组操作顺序组成，类似于流水线，每一个操作是一个Item Pipeline类型。可操作包括：清理，检验，和查重爬取项的HTML数据，将数据存储到数据库。需要编写配置代码。

--Spider Middleware 目的：请求和爬取项的再处理。功能：修改，丢弃，新增请求或爬取项。用户可以编写代码。

**************************************************************************************************

技术分享图片

*****************************************************************************************************

Scrapy命令行：scrapy -h 执行

技术分享图片

原文：https://www.cnblogs.com/dingh/p/13727153.html

踩

(0)

评论一句话评论（0）

分享档案

更多>