首页 > 其他 > 详细

Scrapy爬虫框架

时间:2020-09-24 23:14:13      阅读:66      评论:0      收藏:0      [点我收藏+]

“5+2 ”   结构    scrapy爬虫框架结构

 engine  核心:控制所有模块之间的数据流,根据条件触发事件。

downloader:根据请求下载网页,不需要用户修改。

scheduler:所有爬取请求进行调度管理。不需要用户修改。

----Downloader Middleware 目的:实施Engine,Scheduler和Downloader之间进行用户可配置的控制

功能:修改,丢弃。新增请求或响应。 

可以用户修改。

spider:解析Downloader返回的响应(Response)

产生爬取项(scraped item)

产生额外的爬取请求(request)

Item Pipelines :一流水线方式处理Spider产生的爬取项。由一组操作顺序组成,类似于流水线,每一个操作是一个Item Pipeline类型。可操作包括:清理,检验,和查重爬取项的HTML数据,将数据存储到数据库。需要编写配置代码。

--Spider Middleware 目的:请求和爬取项的再处理。功能:修改,丢弃,新增请求或爬取项。用户可以编写代码。

**************************************************************************************************

技术分享图片

 

***************************************************************************************************** 

Scrapy命令行:scrapy -h  执行

 

技术分享图片

 

Scrapy爬虫框架

原文:https://www.cnblogs.com/dingh/p/13727153.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!