爬虫抓取频次,其实就是定时定量的任务,如何控制的一个站点压力不要把这个站点压跨,需要很多维度的调度。
如何保证最快的发现网站的内容更新,确保第一时间能被搜索引擎收录,首先是根据网站内容更新频率来做出判断。
网站更新频率可通过已抓取的网页的间隔市场进行分析,未抓取的网页可以通过时间戳与HTTP响应头信息 Date 当前的GMT时间。
另外一点就是要对网站服务器的压力,来测试能承受多大的抓取压力。
爬虫如果高频爬取导致网站打开速度变慢,通过网页的下载时长,来分析该站点可以承受的最大阈值。
如果下载时间越长,抓取频率越低,如果下载时间越快,抓取频率越高。
综上,站点的抓取频次和网站内容更新率以及服务器的访问速度有极大的关系。
文章来源:快搜知识 zhishi.kuaiso.com 未完待续
原文:https://www.cnblogs.com/jb51/p/13286934.html