首页 > 编程语言 > 详细

PageRank网页价值算法

时间:2019-05-24 20:27:04      阅读:137      评论:0      收藏:0      [点我收藏+]

一.简介

  PageRank是Google提出的算法,用于衡量特定网页相对于其它网页而言的重要程度。是Google创始人拉里.佩奇和谢尔盖.布林于1997年创造的,用于实现将链接价值概念作为排名的重要因素。

二.算法原理

  1.入链

    PageRank让链接来投票,到一个页面的超链接相当于对该网页投一票。

  2.入链个数

    如果一个页面节点接收到的其它网页指向的入链数量越多,那么这个页面就越重要。

  3.入链质量

    指向页面A的不同入链质量不同,质量高的页面会通过链接向其它页面传递更大的权重。所有越是质量高的页面指向页面A,则页面A就越重要。

  4.图示

    技术分享图片

  5.图解

    技术分享图片

    1.站在A的角度:需要将自己的PR值分给B,D。

    2.站在B的角度:收到来自A,C,D的PR值。

    3.PR值需要迭代计算,且其PR值会逐渐趋于稳定。

  6.初始值

    1.Google的每个页面设置相同的PR值,PageRank算法类似,每个页面的PR初始值为1。

    2.迭代计算,Google不断的重复计算每个页面的PageRank,经过不断的迭代计算,这些页面的PR值会趋于稳定,这就是收敛的状态。

  7.收敛标准

    1.每个页面的PR值和上一次计算的PR值相等。

    2.设定一个差值指标【例如:0.001】,当所有页面上一次计算的PR值差值平均小于该标准时,则认为其已经收敛。

    3.设定一个百分比【例如:99%】,当99%的页面和上一次计算的PR值相等时认为其已收敛。

    技术分享图片

三.修正PageRank

  1.站在互联网的角度看,只有出度而没有入度,PR值会趋向于0,只有入度而没有出度,PR值会趋向于很大。

  2.修正PageRank计算公式,增加阻尼系数,一般取值为d=0.85。

  3.完整PageRank计算公式:

    技术分享图片

    备注:

      d:阻尼系数

      M(i):指向i的页面集合

      L(i):页面的出链数

      PR(Pj):j页面的PR值

      n:所有页面数

四.代码实现

  未完待续。。。

    

 

PageRank网页价值算法

原文:https://www.cnblogs.com/yszd/p/10920003.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!