网络蜘蛛会不断的给搜索引擎提供新的页面,对收集回来的页面,搜索引擎的处理包括了4个方面:关键词提取、重复页面的消除、链接分析和网页重要程度的计算。了解这些处理机制,对我们认识网站优化的重要性大有裨益。
提取关键词
网页处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所包含的关键词。搜索引擎正是基于这个来判断页面主题,并归到相应类别。各搜索引擎会有自己的一套切词算法,但基本上,对位置和密度的分析是提取关键词的关健。
很多网页在内容上比较随意,不仅文字不讲究规范、完整,而且还含有许多和页面内容无关的信息,在搜索引擎优化工作中,各页面的文案策划和代码规范上,是难度不大,但确非常重要的工作。
消除重复页面
互联网中存在大量的重复页面。当我们在网上看到一篇文章时,另外还会有大量的内容高度相似甚至是复制内容的页面。这种现学对于搜索引擎来说,它在搜集和存储网页时会浪费大量的资源,对用户而言也不希望在查询结果中有大量高度重复的页面。因此消除重复页面是搜索引擎的重要工作。
很多用户在抱怨自己的网站更新的文章为什么不被搜索引擎收录,或是收录后又被清除。正是由于搜索引擎的这一机制,它会不断的清理出意义不大的重复页面。
链接分析
从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能够依据关键词和关键词在文档集合中出现的频率来统计该词的重要性以及和某些内容的相关性。有了HTML标记后,情况还可能进一步改善,例如,在同一篇文档中,<H1>和</H2>之间的内容可能就比<H3>和</H4>之间的内容重要些。尤其HTML文档中所包含的指向其他文档的链接信息是用户关注的对象,也对搜索引擎判断网页之间的关系和网页内容的重要性有很重要的作用。
网页重要程度的判断
如何决定在相应一个用户的查询请求时,一个页面应该排在另一个页面的前面?搜索引擎参照了科技文档重要性的评估方式——“被引用的多的就是重要的”。而超链接正是网页之间引用关系的一个表现。作为Google所创立的PageRank算法正是这站思路的成功体现。
除此以外,搜索引擎还注意到网页和文档的不同特点,即一些网页有大量对外的链接,其本身没有一个明确的主题内容,而另外一些网页则被大量其他网页链接。这种关系使得搜索引擎可以对网页建立一种重要性指标,并作为查询结果排序的部分参数。
北京整站优化服务