网络爬虫结构

时间：2017-12-10 20:48:32 阅读：212 评论：0 收藏：0 [点我收藏+]

技术分享图片

网络爬虫的基本工作流

1）首先选取url

2）将urll放到待抓取的url队列中

3）从待抓取url队列中读取url -----》解析dns----》获取主机IP--》下载对应的网页---》存储到已经下载的网页库中----》将url放到已经抓取的url队列中

4）分析已经抓取的url队列中的url---》重已经下载的网页数据中提url 比重————》未抓取的放到待抓取队列中

原文：http://www.cnblogs.com/mrwuzs/p/8017989.html

踩

(0)

评论一句话评论（0）

分享档案

更多>