PageRank和它的数学:需要说明(Pagerank and its mathematics: E

2019-07-18 17:17发布

我感兴趣的开发一个搜索引擎,从我国的索引页面的学生。 我一直在研究算法,现在使用了一段时间,我已经确定HITS和PageRank作为最好的了。 我已经决定去与PageRank的,因为它是更稳定的比HITS算法(或因此我已阅读)。

我发现无数的文章和相关的PageRank的学术论文,但我的问题是,我不明白,大部分形成于这些论文算法中的数学符号。 具体地讲,我不明白谷歌矩阵(束缚,随机矩阵)的计算方式。

我的理解是基于这两篇文章:

  • http://online.redwoods.cc.ca.us/instruct/darnold/LAPROJ/fall2005/levicob/LinAlgPaperFinal2-Screen.pdf
  • http://ilpubs.stanford.edu:8090/386/1/1999-31.pdf

可能有人提供较少的数学符号的基本解释(例子将是很好的)?

提前致谢。

Answer 1:

PageRank的正式确定指标,如在引用文档4页定义,在与滑稽“E”符号的数学公式(它实际上是在资本西格玛希腊字母。适马是字母“S”,它站在这里为求和 )。

概括地说这个公式表示, 计算页X的PageRank的...

   For all the backlinks to this page  (=all the pages that link to X)
   you need to calculate a value that is
         The PageRank of the page that links to X    [R'(v)]
         divided by 
         the number of links found on this page.    [Nv]
         to which you add
           some "source of rank",  [E(u)] normalized by c
             (we'll get to the purpose of that later.)

     And you need to make the sum of all these values [The Sigma thing]
     and finally, multiply it by a constant   [c] 
        (this constant is just to keep the range of PageRank manageable)

其核心思想是这个公式是所有网页链接到一个特定网页X的增加值传送至其“身价”。 通过链接到一些网页,他们都赞成此页的“投票”。 然而,这种“投票”有或多或少的权重,这取决于两个因素:

  • 网页链接到X的普及[R'(V)]
  • 该链接到X的页面还链接到许多其他的网页或不是事实。 [NV]

这两个因素反映很直观的想法:

  • 它通常是更好地从一个公认的专家获取推荐信在该领域不是从一个不知名的人。
  • 不管谁给的建议,通过还赠送推荐给其他人,他们正在减少他们的建议对你的价值。

你可能注意到了,这个公式利用了几分循环引用,因为要知道X的页面范围,你需要知道链接你怎么知道这些的PageRank值,然后X.所有网页的PageRank的?......这其中收敛的下一个问题,在文件踢的部分解释。

从本质上讲,通过与一些“随机”(或最好“体面的猜测”的PageRank值开始,对所有页面,并用上述公式计算的PageRank,新的计算值,得到“更好”,因为你重复这一过程的几个次,值收敛 ,也就是说,它们每一个越来越接近到什么是真正的/中的理论值。因此,通过迭代的次数足够量的,我们到达了片刻,当额外的迭代不会任何实际精度添加到由提供的值最后一次迭代。

现在...这是好的和花花公子,在理论上。 关键是这个算法转换成等价的东西,但它可以更迅速地完成。 有几篇论文,描述了如何这一点,类似的任务,可以做到的。 我没有离手这样的引用,但会在以后添加这些。 当心他们这样做将涉及线性代数健康的剂量。

编辑:按照承诺,这里有关于算法来计算网页排名的几个环节。 1999年的PageRank Haveliwala的高效计算 /// 开拓网络用于计算PR Kamvar等人2003块结构 /// 快速两级算法来计算PageRank的李某等人。 2002年

虽然许多上面提供的链接的作者是斯坦福,它并不需要很长时间意识到高效的PageRank样计算的任务是研究的一个热点领域。 我知道这种材料超出了OP的范围,但在事实基本算法是不适合大网的实际暗示是很重要的。

以非常接近的文本(但有许多环节要深入信息)完成,我想提维基百科的优秀文章

如果你认真对待这样的事情,你可以考虑在数学的入门/进修班,尤其是线性代数,以及计算机科学类,它与一般的图形处理。 顺便说一句,伟大的建议,从迈克尔·多尔夫曼,在这篇文章中,对1806年的讲课OCW的视频。

我希望这能有所帮助...



Answer 2:

如果你是认真的开发搜索引擎的算法,我会认真地建议你采取线性代数课程。 在没有亲自当然,美国麻省理工学院开放式课程由吉尔伯特·斯特朗是相当不错的(视频讲座在http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/VideoLectures/ )。

像这样的类肯定会让你明白你provide--没有什么在纸上,不会在第一年的线性代数课程涵盖了文档中的数学符号。

我知道这是不是你正在寻找的答案,但它是真正为您的最佳选择。 有个人试图将单个符号或算法解释给你,当你不具备的基本概念,把握好是不是很好用的任何人的时间。



Answer 3:

这是你需要的文件: http://infolab.stanford.edu/~backrub/google.html (如果你不承认作者的名字,你会发现这里更多关于他们的信息: HTTP:// WWW .google.com /企业/ execs.html )。

在文档中使用的符号,用通俗的英文文档中描述。

谢谢你让我google一下。



Answer 4:

您可能还需要阅读书面PageRank的矩阵建设背后的数学入门教程大卫奥斯汀的题为谷歌如何找到您的网站的大海捞针 ; 它用一个简单的例子开始,建立充分的定义。



Answer 5:

“在$ 25,000,000,000特征向量:线性代数谷歌的背后”。 从罗斯是豪曼有点过时了,因为现在的网页排名是$ 491B线性代数的问题。 我认为,纸写的很好。

“集体智慧编程”具有网页排名的一个很好的讨论,以及。



Answer 6:

Duffymo贴最好refernce在我看来。 我学的是网页排名算法在我大四本科生一年。 网页排名是做如下:

  1. 定义一组当前的网页作为有限马尔科夫链的状态。
  2. 定义从现场ü过渡到v的概率,其中有到V的输出链路从u是

    1 / U_ {N},其中U_ {N}超出打算从u的链接数量。

  3. 假设以上定义的马尔科夫链是不可约的(这可以用只结果的轻微降解执行)

  4. 可以示出每一个有限不可约马尔可夫链具有固定分布。 定义网页排名是平稳分布,也就是说持有的随机粒子在每个给定的网站最终成为状态转移的数量趋于无穷的概率向量。

谷歌使用的电源的方法来找到平稳分布略有变化(功率方法找到主导特征值)。 除此之外,有没有什么不可以。 它相当简单和优雅,也许马氏链,我能想到的最简单的应用程序之一,但它是wortha很多钱!

因此,所有的PageRank算法确实是考虑到网络的拓扑结构的网站是否应该是很重要的指示。 更导入链接一个网站有一个随机粒子在网站上的时间无限量消耗时间的概率越大。



Answer 7:

如果您想了解更多关于网页排名较少的数学,那么这是基本的矩阵运算很好的教程。 我建议大家谁都有一点数学背景,但要潜入排名算法。



文章来源: Pagerank and its mathematics: Explanation needed