Google 的 PageRank 算法（二） • Yunjie Dai

Lawrence Page 和 Sergey Brin 在不同的刊物中发表了 2 个不同版本的 PageRank 的算法公式。在第二个版本的算法里，页面 A 的 PageRank 值是这样得到的：

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ——算法2

这里的N是整个互联网网页的总数。这个算法 2，并不是完全不同于算法 1。随机冲浪模型中，算法 2 中页面的 PageRank 值就是在点击许多链接后到达这个页面页面的实际概率。因此，互联网上所有网页的 PageRank 值形成一个概率分布，所有 RageRank 值之和为 1。

相反地，第一种算法中随机访问到一个页面的概率受到互联网网页总数的影响。因此，算法 2 解得的 PageRank 值就是用户开始访问过程后，该页面被随机访问到的概率的期望值。如果互联网有 100 个网页，其中一个页面 PageRank 值为 2；那么，如果他将访问互联网的过程重新开始 100 次*（xdanger 注：这句话具体含义是，该用户随机点击网页上的链接进入另一个页面，每点击一次都有一定概率因疲劳或厌倦或其他任何原因停止继续点击，这就是阻尼系数d的含义；每当停止点击后，即算作此次访问结束，然后随机给出一个页面让他开始另一次访问过程；让他将这样的”手续”重复进行 100 次）*，平均就有 2 次访问到该页面。

就像前面所提到的，两种算法并非彼此是本质的不同。用算法 2 解得的 PR(A) 乘以互联网的总网页数N，即得到由算法 1 解得的 PR(A)。Page 和 Brin 在他们最著名的刊物《The Anatomy of a Large-Scale Hypertextual Web Search Engine》中调和了两种算法，文中声称算法 1 是将 PageRank 形成对于互联网网页的一个概率分布，其和为 1。

接下来，我们将使用算法 1。理由是算法 1 忽略了互联网的网页总数，使得更易于计算。

<< Google 的 PageRank 算法（一） | Google 的 PageRank 算法（三） >>