尽管重印和站内重复内容对网站搜索引擎排名的损害不大,但也没有好处,如果处理不当也会带来坏处。如果网站中充斥的都是毫无特色的内容,搜索引擎爬虫肯定不会满意。重印,尤其是在网络上大量的重印,最终必然也会引起搜索引擎爬虫的特别关注。
这种情况发现后,搜索引擎爬虫就会开始寻找该重印内容的原始位置。这可以通过寻找该内容最早出现的地方实现。通过寻找获得链接最多的内容和哪些版本是内容剽窃的结果,也能找到重印内容的最初位置。经过一系列的排除,搜索爬虫能将可能的范围缩小。如果仍然难以找到内容的来源,爬虫就会选择其中最可信的网站。
爬虫找到该内容的出处之后,其他的重印就会从索引中删除。
如果必须使用非原创的内容,或必须在网站上保留同一内容的多份拷贝,也有一个办法能避免这些重复内容给网站搜索排名所带来的负面影响。使用robots.txt或<noindex>标签就能阻止搜索引擎检索有重复内容的网页。
应该将<noindex>标签放在不被检索的网页的头部,最好还能使网页中的链接能被爬虫正常检索。
提示:
万万不可为了提高网站的搜索引擎排名而用<noindex>标签隐藏网站中的重复内容。这么做必将玩火自焚。搜索引擎爬虫会发现网站在各个方面都不符合搜索引擎对网站进行排名的标准,网站在搜索引擎中的排名自然也会下降。
北京搜索优化技术提供原文!