百度识别“原创文章”的原理
2012-08-15 21:30:02

现在做网站SEO的朋友们都知道,搜索引擎非常喜欢原创文章,从是否收录到收录速度、权重、快照等方面,对原创文章都给予了重点关注。而对于从网络上复制过来的重复信息,被收录的机会却大大降低。如果恰巧你的网站是权重比较低的,可能连收录都成了问题。

企业的SEO专员对这种情况,一般都有所了解。但是一个更深层次的问题是,搜索引擎如何识别“原创文章”?识别的原理是什么?这恐怕是SEOer最想知道的,当然也是百度、google等搜索引擎一定不会公布的。在这里,我跟大家交流一下我在这方面的研究收获,与大家共同学习。

我们先来看看平面媒体的原创著作是怎么完成的。一个记者对一个新闻事件进行采访之后,写了一篇新闻报道投到自己所在的报社,然后由报社登载在报纸上,这篇新闻报道就是这名记者原创的。原创的就是唯一的,发表后被其他报社转载,那就不是原创了。即使是很多个记者对同一个事件进行采访后写的新闻稿,也不会完全相同,因为每个人都有自己的视角,所以每个人的稿子都是唯一的原创,就是人的指纹一样,是唯一的。

再回到网络,如果这篇稿子发在了报社的网络电子版上,对于搜索引擎来说,他就是被认为是原创,会给与较高的权重,会及时的收录。因为搜索引擎以前没有见过这篇文章,这是第一次见,所以他很喜欢,认为是原创,就及时收录了。

但是搜索引擎毕竟只是电脑,虽然他的能力比我们个人用的电脑要强得多,他是一群电脑、一个复杂的系统,但它仍然是机器,他识别原创文章的原理必然要遵循人给他设定的规则。但是很不幸,这个规则除了百度自己以外,我们普通用户谁也不知道。但是我们能够通过一些通常的道理,从侧面做些了解。

记者在采写新闻稿时,他就是一个独立的创作者,他写的文章就带有他自己的个性,依据他自己的知识、经历,还要加上新闻稿写作的一般规则。这样的一个过程,就保证了他写出来的东西和别人是不一样的,是独特的,是原创的。当这篇文章上传到网络,搜索引擎会使用关键字技术、指纹识别、发布时间、是否有转载的出处等因素,来判定这篇文章是否原创。那么,这个判定过程也是我们最感兴趣的,但是从另外一个角度来说,也是我们可以忽略的。

可以忽略的?对,做网站的时候如果可以完全忘掉搜索引擎,只想着客户,那么你做出来的网站一定是客户欢迎的,是有价值的,是可以给你带来效益的。而这个结果也是是你在拼命研究原创原理的时候所追求的,异曲同工。只是有一点不同,你研究搜索引擎的原创识别原理很可能无果而终,因为搜索引擎每年至少有200次的算法更新。而如果你一直在研究客户的需要,从而去满足客户的需要,这才是做到了点子上。

所以,这就是搜索引擎原理与客户体验一致的地方。所以,只要把精力集中在客户体验上,最后就一定能够获得搜索引擎的青睐,获得好的权重和排名,从而获得订单。