相信做英文SEO的同行们都知道,现在的Google是可以判断两篇甚至多篇文章中,哪些是复制的,哪篇是原创的,虽然我们不知道这其中具体的算法和主导因素,但是有一点我们可以肯定的是:有时候Google的判断并不是很准确。
10月31日,Google在其官方的GoogleWebmasterCentral博客上发布了一篇文章,最主要的内容就是:如果你的某个网页由于被Google判断为复制内容而导致不在搜索结果中显示,那么你会收到一封提醒信息,这样你就知道你这个网页为啥死活木有排名了,而且如果你看到这样的消息之后,发现这篇文章绝对是你自己的原创,是Google判断错误了,那么你还可以提出申诉。
文章称,如果Google发现了一组包含重复内容的网页,就会利用算法从这组网页中选出一个最具有代表性的作为“标准页面”,这组包含重复内容的网页有可能是来自不同的域名,Google将这种在不同域名下的网页中挑选标准页面称为“跨域URL选择”。
对于重复网页,有很多的解决办法,最简单最合理的是使用rel=canonical标签。但是并非所有网站所有者都会关心重复页面的问题,如果站长忽略了这一点,没有使用任何方式标记出一个标准页面,那么Google就会自己进行判断,这也就意味着判断出现误差,这就是为什么有时候站长发现自己希望被Google收录并给予排名的网页偏偏就是比不上一个自己并不在乎的页面。
这个新功能的出现,使得网站所有者可以很明确的知道自己的某个页面是不是被Google用其它网页甚至其它域名的网页给代替了,通常以下几种情况会导致你的页面被其它网页甚至别的域名的网页代替。
网站所有者自己规定了一个“标准页面”,比如使用“rel=canonical”规定了一个标准页面,那么Google在判断之后,也会提醒你,主要是用于确认你的设置。
如果你的网站有同名的国别站,比如domain.com, domain.co.uk, domain.de,那么这些网站上的同一篇文章会被判断为重复内容,不过Google会根据搜索者所使用的语言展示对应语种的标准页面,也就是说,如果一个英国用户搜索这个关键词,那么Google就会将 domain.co.uk这个域名下的文章页面作为标准页面返回给搜索者。
如果网站所有者在使用rel=canonical时由于疏忽,将标准URL指向了一个本站之外的网页,Google依然会遵循这个设置用指向的那个本站之外的网页代替站长希望使用的标准网页,好在站长也会收到这么一则提醒。
有些服务器(通常是共用的服务器)问题会导致同一个页面产生两个甚至多个不同的URL,这时Google Bot会按照算法自动进行判断,也就有可能导致判断错误,这种情况出现的几率非常小。
黑客攻击,在你的网站上挂上恶意代码,使蜘蛛访问时自动跳到其它网站上去,会导致Google判断出的标准页面与你所期望的标准页面不同。
即便不出现以上的几种情况,Google在自己进行判断的时候,也有可能错误的将别的网页判断为标准页面,而实际上这个Google判断的标准页面的内容是从你的网站复制过去的。不过文章中也强调,这种情况出现的几率微乎其微。
这个新功能只有当你的某个网页被其它页面代替的时候会提醒网站所有者,也就是说,如果你的网站一切正常,是收不到这样的消息的,所以笔者在这里也没法截图贴上来。各位读者如果发现你的某个原创的文章一直不出现在搜索结果中的时候,不妨去Google管理员工具中看看是否收到了这样的一则提醒信息,当然,前提是你的网站使用了Google管理员工具。