Google 对于重複内容(Duplicate Content)或重複页面(Duplicate Pages)并不会对其进行排名惩罚,只要不要是刻意的诈欺、欺骗内容,意图影响搜寻引擎的排名,网站当中出现重複内容(Duplicate content)或重複页面(Duplicate Page)实质上不会导致你的排名下降。
不过,一旦你的「重複内容」是涉及到欺骗的行为,那么后果就不仅仅是排名下降,而是会直接遭到 Google 将你的网站直接从搜寻结果当中给移除。
虽然说,Google 并不会对重複页面或重複内容进行排名的惩罚,但是基于实务上 SEO 的优化与操作,我们仍然会倾向于尽可能的减少与降低重複内容发生的机会,尽量将网站中,大量相似的内容整合成为单一篇文章。如此除了能够降低重複性,同时也能够让单一篇的文章内容篇幅更长,所触及的深度也会更广,大大提升单篇文章的品质分数,进而获取更佳的排名机会。
什么是重複内容?
重複内容的定义是:指在同一网域当中,出现多于一个以上的页面,其内容具高度相似,我们称为「重複内容」。而判断页面之间是否为重複的标準,则是由搜寻引擎演算法所进行分析与判断。
虽然 Google 明确表明重複内容并不会受到排名降低的惩罚,但是,经过各大研究结果指出,降低重複内容、合併相似的页面,能有效的提升网站的性能,也能使合併的文章更具有权威性,间接的让你的排名能够提升。
因此,你应该重新检视自己的网站是否有重複内容的问题,将其加以改善,透过移除、合併、跳转…等等方式,减少你的内容重複性。
搜寻引擎不喜欢重複内容
在 2019 年 6 月,Google 推出了「多样性更新演算法」,其目的在于,降低同一网域中,出现在同一搜寻结果所显示的数量。
我们可以理解为,Google 不想让使用者在搜寻某个关键字时,所出现的结果都是来自于相同的网站。因此,即便你的网站当中,具有类似的内容有好几百篇,但终究,Google 最多可能也只会显示 2 个最相关的页面内容。
与其如此,我们建议你不如将这几百篇相同的内容进行合併整合,将每一篇分散讨论的内容合併起来,使单一篇文章所谈论到的主题更加的广泛且全面。如此你的网站不仅能够因为减少了几百篇的内容而获得性能的提升,使用者也不会对大量相同内容感到厌倦之外,你的单一篇文章质量也会获得大量的提升。
因此,合併重複内容不管对于网站性能、使用者体验,或是网站排名方面来说,都是百利而无一害的。
常见的重複内容问题
现在我们了解了重複内容所带来的问题,以及解决重複内容后所带来的好处。那么,究竟大部分常见的重複内容,都是如何产生的呢?要知道,纵使你没有刻意产生重複内容的意思,但有时在技术上的缺失,也可能是导致你的网站出现重複内容的问题。
以下是一些常见的重複内容发生情况。
URL 重複网址
这个问题尤其常发生于电子商务网站,许多产品页面会有不同的颜色、尺寸,而这些产品虽然颜色尺寸不同,但实际上还是同一件商品。因此大多时候,其网址后缀会加上参数,让其画面显示是不同的尺寸大小。如下图所示:
这里用购物网站常见的搜寻页面当中,会使用不同的筛选条件来显示商品的显示结果,此时 URL 都是同一个搜寻网址页面「/search」,但不同的关键字与筛选条件则会显示不同的排列结果「?keyword=化妆水&page=0&sortBy=sales」。
不同的 URLs 会让搜寻引擎认为是不同的页面,但实际上,其内容几乎是完全相同的。
在这个时候,我们就可以使用「rel=canonical」语法,来将这些相似的网页,指定某一个网址为标準网页。
指定标準网页
您可以根据您的网页用途,使用多种适合的方法为一系列重複的网页指定标準网页:
方法 | 说明 |
---|---|
一般指南 | 以下指南适用于所有标準化方法。 |
rel=canonical <link> 标记 | 在所有重複网页的程式码中加入 <link> 标记,指向标準网页。 优点:可对应的重複网页数量不限。 缺点:网页档案可能会因此变大。如果网站规模较为庞大,或是其中的网址经常变更,对应关係的维护作业会变得複杂。仅适用于 HTML 网页,不适用于 PDF 这类档案 (在这种情况下,您可以改用 rel=canonical HTTP 标头)。 |
rel=canonical HTTP 标头 | 在网页回应中传送 rel=canonical 标头。 优点:网页档案不会变大。可对应的重複网页数量不限。 缺点:如果网站规模较为庞大,或是其中的网址经常变更,对应关係的维护作业会变得複杂。 |
Sitemap | 在 Sitemap 指定标準网页。 优点:易于实作及维护,特别是对大型网站。 缺点:Googlebot 仍须根据您在 Sitemap 中宣告的所有标準网页判别相关联的重複网页。对 Googlebot 来说,Sitemap 的指标效力不及 rel=canonical 对应做法。 |
301 重新导向 | 使用 301 重新导向告知 Googlebot,重新导向的网址是优于指定网址的版本。只有在要淘汰重複的网页时,才适用这个方法。 |
AMP 版本 | 如果其中一个网页版本是 AMP 网页,则必须按照 AMP 指南指出标準网页和 AMP 版本。 |
HTTP 与 HTTPS 版本
Google 在先前早已将 HTTPS 加密协议作为影响排名的 SEO 因素之一。而你如果只有购买 SSL 凭证,让网站拥有 HTTPS 的加密协议,却没有将所有 HTTP 的版本统一指向至 HTTPS 的话,那么就会发生同时间拥有 HTTP 与 HTTPS 的重複内容。
这个问题会发生,是因为购买 SSL 加密凭证并设定好网站后,没有确实将原始的 HTTP 网址使用 301 Redirect 转址至 HTTPS 版本,导致同时间可以访问 HTTP 与 HTTPS 两个版本。因此,对于搜寻引擎来说,这两个完全一样的内容,却有两个不同的网址被收录,导致重複内容的发生。
在这个时候,就可以透过 CloudFlare 来控制,将网域自动强迫使用 HTTPS 进行浏览,或是透过 .htaccess 档案设定,将 HTTP 自动 301 跳转至 HTTPS 的网址。如此就能解决 HTTP 与 HTTPS 重複网址内容的问题。
WWW 与 non-WWW
这个问题与 HTTP、HTTPS 情况类似,也就是网域可以同时经由 www.example.com 或 example.com 进行访问。而这两个网址都是呈现相同的内容。
如果你的网站同时间存在 HTTP、HTTPS 与 WWW、non-WWW 的问题,那么就等同于一个内容完全一样的页面,同时间你会自动产生 4 个不同的网址,导致一次就产生 4 个重複内容。
而这个问题的解决方法就可以透过 .htaccess 档案来进行设定,使网站强迫使用 www.example.com 或是强迫使用 example.com 作为标準网址进行访问。如此就能解决 www 与 non-www 内容重複的问题。
后缀网址
许多使用 .html、.php 或是 .asp 的网站,其主页通常会是 example.com/index.html 的格式,而你会发现,有时这类型的网站不管是输入 example.com 或是 example.com/index.html,都可以进入到相同的首页内容。这也是重複内容的一种。
想要解决这个问题,同样我们也会使用 .htaccess 来强迫将 example.com/index.html 使用 301 跳转至 example.com 网址。
或者,我们也可以利用 rel=canonical 来标注标準网址。如此一来,儘管 example.com/index.html 与 example.com 都能访问相同页面,但两个页面都清楚标示了 rel=canonical 来告诉搜寻引擎,标準的网址是「example.com」(看你指定的是哪一个版本的网址),这样就不会产生重複内容的问题了。
不过,最佳的方式仍然是既使用 301 跳转至相同的一个网址,同时也使用 rel=canonical 来宣告单一标準网址,这样才是最正确的做法。
重複页面解决方法
实务上,要解决重複页面的问题,我们最常用的方法有两种:
方法一:rel=”canonical”
刚刚多次提到的解决方法,就是在你的程式码 <head> 中,加入「rel=”canonical”」来告诉搜寻引擎,你的标準网址是哪一个。
儘管你今天产生了重複页面不同网址的情况,但由于你加入了 rel=”canonical” 来宣告你的标準网址,因此 Google 就会将这些重複的页面忽略,将其都判断为你指定的标準网址为基準。
但通常我们除了在 <head> 标题中加入 rel=”canonical” 宣告标準网址之外,同时还会使用 301 跳转方式来统一网址,尽可能的不要产生相似网址重複内容的问题。
方法二:301 Redirect
这个方式是最佳的作法,将你所有重複网址都指向至单一网址,让所有可能产生的重複页面,都会自动跳转至单一的网址,如此就能避免搜寻引擎或使用者会同时间看到多个相似网址的重複页面内容。
举例来说,假如我们要将 WWW 自动 301 跳转至 non-WWW,那么就可以在 .htaccess 档案当中,加入以下的程式码进行判断:
PHP
如果你想要了解更多 .htaccess 的 301/302 跳转条件语法,那么可以参考这篇:使用 .htaccess 实现 Redirect 301/302 重定向转址规则
整合重複的网址
Google 官方有为大家列举一般常见的重複内容原因,大部分重複内容的产生都是源自于:
为了支援多种装置类型:
因搜寻参数或工作阶段 ID 这类元素的缘故而採用动态网址:
在网誌的不同版面底下放置相同的文章,系统会自动储存多个网址:
服务器设定为针对 www/非 www、http/https 版本的网址提供相同的内容:
从您的网誌联合发布到其他网域中网站的内容,与原始内容有部分或全部是重複的:
总结
现在我们了解大部分重複内容与重複页面所产生的原因与型态,那么最后快速总结一下几种,可以帮助我们解决这些可能发生重複内容的方式:
使用 rel=”canonical” 连结标记
您可以在网页标头中使用 <link>
标记来指出该网页与其他网页内容重複。
如果您要使用 https://example.com/洋装/绿色洋装
做为标準网址 (即使可透过其他网址存取相同的内容),请按照下列步骤将这个网址指定为标準网址:
- 使用 rel=”canonical”「link 元素」来标记所有重複网页。如下所示,在重複网页的
<head>
区段中新增<link>
元素 (将属性设为rel=\"canonical\"
),指向标準网页:<link rel=\"canonical\" href=\"https://example.com/洋装/绿色洋装\" />
- 如果「标準」网页有行动版,请新增指向行动版网页的
rel=\"alternate\"
连结:<link rel=\"alternate\" media=\"only screen and (max-width: 640px)\" href=\"http://m.example.com/洋装/绿色洋装\">
- 为网页加上 hreflang 或其他适当的重新导向。
使用绝对路径 (而非相对路径) 来搭配 rel=”canonical” link 元素。
建议结构:https://www.example.com/洋装/绿色/绿色洋装.html
「非」建议结构:/洋装/绿色/绿色洋装.html
使用 rel=”canonical” HTTP 标头
如果您能设定服务器,则可使用 rel=\"canonical\"
HTTP 标头 (而非 HTML 标记) 来指定非 HTML 文件 (例如 PDF 档案) 的标準网址。
举例来说,如果您透过多个网址提供 PDF 档案,可以针对重複的网址传回 rel=\"canonical\"
HTTP 标头 (如下所示),藉此将 PDF 档案的标準网址告知 Googlebot:Link: <http://www.example.com/downloads/white-paper.pdf>; rel=\"canonical\"
Google 目前仅针对网页搜寻结果支援这个方法。
使用绝对路径 (而非相对路径) 来搭配 rel=”canonical” link 元素
方法如下:
建议结构:http://www.example.com/downloads/white-paper.pdf
「非」建议结构:/downloads/white-paper.pdf
使用 Sitemap
您可以为每个网页挑选一个标準网址,然后透过 Sitemap 提交。Sitemap 中列出的所有网页都是建议的标準网页;Googlebot 会根据内容相似度判断哪些网页属于重複的网页 (如果有的话)。
我们「不保证」一定会将 Sitemap 中的网址视为标準网址,但 Sitemap 是为大型网站定义标準网址的简易方法,也很适合用来告知 Google 您认为哪些是网站上最重要的网页。
请勿在 Sitemap 中加入非标準网页。使用 Sitemap 时,您只能在其中指定标準网址。
针对已停用的网址使用 301 重新导向
如果您要淘汰现有的重複网页,但必须确保在旧网址失效前能顺利进行转换,请使用这个方法。
如果使用者可以透过多种方式进入您的网页:
选择其中一个网址做为标準网址,然后使用 301 重新导向将来自其他网址的流量传送至您的偏好网址。服务器端 301 重新导向是确保使用者和搜寻引擎都能导向至正确网页的最佳方法。301 状态码表示网页已永久迁移至新的位置。
如果您是在使用代管服务的网站上,请搜寻如何设定 301 重新导向的相关说明文件。
今天的重複内容与重複页面的教学就到这里,如果你喜欢今天的内容,欢迎分享出去与追蹤我们的粉丝专页。若有问题,欢迎在下方留言,我们会儘速的回覆给你。