首页 > 其他 > 详细

7-5

时间:2018-07-05 19:10:49      阅读:174      评论:0      收藏:0      [点我收藏+]
重新访问策略
网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很长的时间,通常用周或者月来衡量。当爬虫完成它的抓取的任务以后,很多操作是可能会发生的,这些操作包括新建,更新和删除。
搜索引擎的角度来看,不检测这些事件是有成本的,成本就是我们仅仅拥有一份过时的资源。最常使用的成本函数,是新鲜度和过时性(2000年,Cho 和Garcia-Molina)\
爬虫的目标是尽可能高的提高页面的新鲜度,同时降低页面的过时性。这一目标并不是完全一样的,第一种情况,爬虫关心的是有多少页面时过时的;在第二种情况,爬虫关心的页面过时了多少。

7-5

原文:https://www.cnblogs.com/coder-2017/p/9269783.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!