规范化和重复内容检测

Where business professionals discuss big database and data management.
Post Reply
Abdur14
Posts: 399
Joined: Thu Jan 02, 2025 6:48 am

规范化和重复内容检测

Post by Abdur14 »

正如我们之前提到的,规范标签允许搜索引擎指示哪个是原始URL 或相对于其他 URL 的首选 URL,以便它们优先考虑它并赋予其相关性而不是其他要忽略的 URL。


谷歌分析师加里·伊利斯 (Gary Illyes) 表示,“首先检测到克隆:它们基本上被分组在一起,说它们都是彼此的克隆,然后必须在所有这些克隆中 找到首页:这就是规范化。”

因此,重复的内容已经被检测到,但是要选择这些页面中的哪些是原始内容,哪些是克隆内容,基本上要做的就是将内容减少到校验和,这是因为它“更容易做到这一点”比可能比较一个条目中的所有单词,”加里在播客中说。


减少校验和并在页面文本内容上比较其中的几个结果后,可以得到“准重复”,即一个网站的所有内容不必与另一个网站完全相同。受到惩罚,因为内容被排除在外:

“我们有几种算法,例如,尝试检测然后从页面中删除标准文本,例如,导航 加拿大 CTO CIO 电子邮件列表 被排除在该校验和的计算之外,还有页脚和所谓的“中心部分”,即基本上是页面的核心内容,”加里补充道。

Google 用于查找规范 URL 的信号
找到重复内容后,您必须选择在搜索结果中显示哪个文档。这样做是因为“用户通常不喜欢在许多搜索结果中重复相同的内容,而且还因为我们索引中的历史空间不是无限的,”加里说。

因此,为了计算什么是规范 URL,即引导集群的页面,Google 使用了 20 多个信号:因此,Google 会考虑该页面是否位于HTTPS URL 上、是否包含在站点地图中,或者如果页面被重定向到另一个页面,因为这是一个非常明确的信号,表明另一个页面应该是规范页面。 Google 使用的信号包括:

内容
网页排名
HTTPS
如果该页面位于站点地图文件中
服务器重定向信号
规范标签
谷歌使用其机器学习为每个信号分配权重,需要考虑的一个重要事实是规范标签和重定向将对算法具有更大的权重。如您所见, 规范化完全独立于排名,但 Google 选择为规范的页面最终将出现在搜索结果页面上并进行排名。
Post Reply