网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型
通用网络爬虫:全网爬虫,爬取对象有种子URL扩展到整个网络
聚焦网络爬虫:又称主题网络爬虫是指选择性地爬行那些与预先定义好的主体页面相关的网络爬虫
增量式网络爬虫:对已爬取的网页进行增量式更新或只爬行新产生的或者已经发生变化网页的爬虫
深层网络爬虫
实际的网络爬虫是集中爬虫技术相结合实现的
下面对这几种爬虫进行详细的介绍
名称 | 场景 | 特点 | 缺点 |
---|---|---|---|
通用网络爬虫 | 门户站点搜索引擎、大型Web服务提供商采集数据 | 爬行范围和数量巨大、爬行页面顺序要求低、并行工作方式,爬取互联网上的所有数据 | 爬虫速度和存储空间要求高、刷新页面的时间长 |
聚焦网络爬虫 | 又称主题网络爬虫,只爬行特定的数据,商品比价 | 极大 节省了硬件和网络资源,页面更新快 | |
增量式网络爬虫 | 只抓取刚刚更新的数据 | 数据下载量少,及时更新已爬行的网页,减少时间可空间上的耗费、爬取到的都是最新页面 | 增加了爬行算法的复杂度和实现难度 |
深层网络爬虫 |
原文:https://www.cnblogs.com/juddy/p/13144987.html