谷歌是否有一个内容重复的百分比阈值来识别和过滤重复内容。
多少百分比等于重复内容?
当 Duane Forrester ( @DuaneForrester ) 询问是否有人知道是否有任何搜索引擎发布了被认为是重复的内容重叠百分比时,对话实际上是在 Facebook 上开始的。
Bill Hartzer ( bhartzer ) 转向 Twitter 询问 John Mueller,并得到了几乎立即的回复。
比尔在推特上写道:
“嘿@johnmu 有代表重复内容的百分比吗?
例如,我们是否应该尝试确保页面比我们网站上的其他页面至少有 72.6% 的独特性?
谷歌甚至测量它吗?”
谷歌的约翰穆勒回应:
没有数字(你怎么衡量呢?)
Google 如何检测重复内容?
多年来,谷歌检测重复内容的方法一直非常相似。
早在 2013 年,当时的 Google 软件工程师Matt Cutts ( @mattcutts )发布了一段 Google 官方视频,描述了 Google 如何检测重复内容。
他在视频开始时说大量互联网内容是重复的,这是正常的事情。
“重要的是要意识到,如果您查看网络上的内容,大约 25% 或 30% 的网络内容是重复内容。
……人们会引用博客的一段,然后链接到博客,诸如此类。”
他接着说,因为很多重复的内容是无辜的,没有垃圾邮件的意图,谷歌不会惩罚这些内容。
他说,惩罚包含重复内容的网页会对搜索结果的质量产生负面影响。
Google 在发现重复内容时会采取以下措施:
“……尝试将所有内容组合在一起,并将其视为只是一个内容。”
马特继续说:
“它只是被视为我们需要适当聚类的东西。我们需要确保它的排名正确。”
他解释说,谷歌随后会选择在搜索结果中显示哪个页面,并过滤掉重复的页面以改善用户体验。
Google 如何处理重复内容 – 2020 版
快进到 2020 年,Google 发布了 Search Off the Record 播客剧集,其中以非常相似的语言描述了相同的主题。
以下是该播客从剧集 06:44 开始的相关部分:
“Gary Illyes:现在我们完成了下一步,这实际上是规范化和欺骗检测。
Martin Splitt:这不一样吗,重复检测和规范化,有点?
Gary Illyes: [00:06:56] 好吧,不是,对吧?因为首先你要检测出骗子,基本上把它们聚集在一起,说所有这些页面都是彼此的骗子,
然后你基本上要为所有这些页面找到一个领导页面。……这就是规范化。
所以,你有重复,这是整个术语,但在其中你有集群构建,比如重复集群构建和规范化。“
接下来,Gary 用技术术语解释了他们是如何做到这一点的。基本上,谷歌并没有真正关注百分比,而是比较校验和。
校验和可以说是将内容表示为一系列数字或字母。因此,如果内容重复,则校验和数字序列将相似。
加里是这样解释的:
“因此,对于欺骗检测,我们所做的是,我们尝试检测欺骗。
我们如何做到这一点也许是其他搜索引擎中大多数人的做法,基本上就是将内容简化为哈希或校验和,然后比较校验和。”
加里说谷歌这样做是因为它更容易(而且显然准确)。
Google 使用校验和检测重复内容
因此,在谈论重复内容时,可能不是百分比阈值的问题,其中有一个数字可以说内容是重复的。
而是使用校验和形式的内容表示来检测重复内容,然后比较这些校验和。
另一个要点是,部分内容重复和所有内容重复之间似乎存在区别。