首页 > 其他 > 详细

网络爬虫调度器:关于抓取频次

时间:2020-07-12 09:26:18      阅读:70      评论:0      收藏:0      [点我收藏+]

爬虫抓取频次,其实就是定时定量的任务,如何控制的一个站点压力不要把这个站点压跨,需要很多维度的调度。

如何保证最快的发现网站的内容更新,确保第一时间能被搜索引擎收录,首先是根据网站内容更新频率来做出判断。

网站更新频率可通过已抓取的网页的间隔市场进行分析,未抓取的网页可以通过时间戳与HTTP响应头信息 Date 当前的GMT时间。

另外一点就是要对网站服务器的压力,来测试能承受多大的抓取压力。

爬虫如果高频爬取导致网站打开速度变慢,通过网页的下载时长,来分析该站点可以承受的最大阈值。

如果下载时间越长,抓取频率越低,如果下载时间越快,抓取频率越高。

综上,站点的抓取频次和网站内容更新率以及服务器的访问速度有极大的关系。

文章来源:快搜知识 zhishi.kuaiso.com 未完待续

网络爬虫调度器:关于抓取频次

原文:https://www.cnblogs.com/jb51/p/13286934.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!