PageRank是Google提出的算法,用于衡量特定网页相对于其它网页而言的重要程度。是Google创始人拉里.佩奇和谢尔盖.布林于1997年创造的,用于实现将链接价值概念作为排名的重要因素。
1.入链
PageRank让链接来投票,到一个页面的超链接相当于对该网页投一票。
2.入链个数
如果一个页面节点接收到的其它网页指向的入链数量越多,那么这个页面就越重要。
3.入链质量
指向页面A的不同入链质量不同,质量高的页面会通过链接向其它页面传递更大的权重。所有越是质量高的页面指向页面A,则页面A就越重要。
4.图示
5.图解
1.站在A的角度:需要将自己的PR值分给B,D。
2.站在B的角度:收到来自A,C,D的PR值。
3.PR值需要迭代计算,且其PR值会逐渐趋于稳定。
6.初始值
1.Google的每个页面设置相同的PR值,PageRank算法类似,每个页面的PR初始值为1。
2.迭代计算,Google不断的重复计算每个页面的PageRank,经过不断的迭代计算,这些页面的PR值会趋于稳定,这就是收敛的状态。
7.收敛标准
1.每个页面的PR值和上一次计算的PR值相等。
2.设定一个差值指标【例如:0.001】,当所有页面上一次计算的PR值差值平均小于该标准时,则认为其已经收敛。
3.设定一个百分比【例如:99%】,当99%的页面和上一次计算的PR值相等时认为其已收敛。
1.站在互联网的角度看,只有出度而没有入度,PR值会趋向于0,只有入度而没有出度,PR值会趋向于很大。
2.修正PageRank计算公式,增加阻尼系数,一般取值为d=0.85。
3.完整PageRank计算公式:
备注:
d:阻尼系数
M(i):指向i的页面集合
L(i):页面的出链数
PR(Pj):j页面的PR值
n:所有页面数
未完待续。。。
原文:https://www.cnblogs.com/yszd/p/10920003.html