简单爬虫学习记录

时间：2018-06-25 20:16:20 阅读：187 评论：0 收藏：0 [点我收藏+]

爬虫调度器：启动/停止爬虫，规定爬虫的范围；
URL管理器：管理2个URL：新的没有爬过的urls；旧的爬过的urls；
URL下载器：下载url对应的html数据；
HTML解析器：解析并过滤下载到的html数据；
数据输出器：把解析过滤后的数据，按一定的格式存储到对应的文件中。

原文：http://blog.51cto.com/5567475/2132586

踩

(0)

评论一句话评论（0）

分享档案

更多>