在我们日常生活中,当需要查询资讯时,通常会依赖搜寻引擎,如 Google。然而,网际网路上有数以亿计的网页,Google 是如何决定哪些网页应该出现在搜寻结果的前面呢?这背后的关键就是 Google 的 PageRank 演算法。

本文将以简单易懂的方式,深入解释什么是 PageRank、它的运作原理,以及它如何影响我们使用网际网路的方式。

什么是 PageRank?

PageRank 是 Google 用来评估网页重要性和权威性的一种演算法。它的核心概念是透过分析网页之间的连结关係,判断哪些网页更有价值或更值得信赖。这个演算法的名称来自于 Google 创办人 Larry Page,同时也象徵着「页面排名」。

PageRank 的基本原理
1. 连结即投票

想像每个网页都是一个人,而连结就像是投票。如果一个网页 A 有连结到网页 B,这表示 A 对 B 表达了信任或推荐,等于是给 B 投了一票。这意味着被更多网页连结的网页,通常被视为更有价值。

2. 投票的权重

然而,并非所有的投票都具有相同的价值。来自权威或高品质网页的连结,其投票价值更高。这类网页本身已经累积了较高的 PageRank,因此它们的推荐更具影响力。

3. 投票权的分配

如果一个网页有多个对外连结,它的投票权会被平均分配给所有被连结的网页。换句话说,连结越多的网页,每个连结所传递的投票权就越小。

4. 阻尼因子(Damping Factor)

为了模拟使用者随机浏览网页的行为,PageRank 演算法引入了阻尼因子,通常设定为 0.85。这代表了使用者有 85% 的机会透过点击连结继续浏览,15% 的机会直接跳到任意一个网页。

PageRank 的计算方式

虽然数学公式可能看起来複杂,但我们可以用简单的方式来理解。

计算公式

PR(A) = (1 - d) + d × (PR(B1)/L(B1) + PR(B2)/L(B2) + ... + PR(Bn)/L(Bn))

PR(A):网页 A 的 PageRank 值。
d:阻尼因子(通常为 0.85)。
B1...Bn:所有连结到网页 A 的网页。
PR(Bi):网页 Bi 的 PageRank 值。
L(Bi):网页 Bi 的对外连结数量。