假设一个由只有4个页面组成的集合:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的和。
继续假设B也有链接到C,并且D有链接到其他三个页面。每个页面拥有的投票数是一定的,所以B相当于将自己的票分给A、C各一半。按同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
换句话说,根据出链总数平分一个页面的PR值。一个页面的出链是指自己指向其它页面的链接。
在现实网络中,有些页面的出链数为0,即不链接到任何网页的页面,但是很多网页可以访问它。为了能处理这些网页,PangRank算法进行了一定的修正,引入了增加阻尼系数d(damping factor)。阻尼系数,一般定义为用户随机点击链接或在地址栏输入链接而进入其他网页的概率,根据工程经验一般取0.85。下面的公式是计算网页A的PR值公式。Ti是存在到A的链接的网页。C(Ti)是网页Ti中存在的链接的数量。d是。而(1-d)代表着不考虑入站链接的情况下随机进入一个页面的概率。
优点:PageRank算法是一个与查询无关的静态算法,所有网页的PageRank值都是通过离线计算获得,从而有效减少了在线查询时的计算量,极大降低了查询响应时间。
缺点:
原文:https://www.cnblogs.com/susy/p/14162128.html