Page-Rank是Google最核心的算法,用于给每个网页价值评分,是Google“在垃圾中找黄金”的关键算法,这个算法成就了今天的Google
例如有四个网页,1有链接指向2、3、4,2有链接指向3、4,3有链接指向4,4有链接指向2,如下图如示。矩阵S怎么来的呢:矩阵的每一行代表一个网页,每一列也代表一个网页;值为0表示没有链接,非0表示有链接。网页1中没有链接指向网页1,所以1行1列的值为0,网页1中有链接指向网页2,所以2行1列的值为非0,同理,3行1列、4行1列的值也为非0,最后2行1列、3行1列、4行1列3个非0平分网页1的权重值,即每个为1/3;同理得出第2、3、4列的各个元素
q怎么算呢,可以通过迭代来算出:
事先定义任意向量q1,然后开始迭代:G*q1=q2,G*q2=q3,G*q3=q4… ,这样一直迭代下去一定会是收敛的(google已经证明),即到后面会有G*qn=qn+1,而qn与qn+1之间的差别非常非常小。我们可以事先定义一个阀值,如里这个阀值小于qn与qn+1之间的距离,就停止迭代,然后把qn+1拿过来近似作为特征向量q.
未完待续...
原文:http://my.oschina.net/zc741520/blog/357883