我们都知道,搜索引擎网页的收集过程并不是在用户提交关键词后进行及时的搜索,而是预先将网页收集好并进行相关的处理后等待用户的查询。因此,如果让网站页面被搜索引擎顺利收录一直是网站优化工作的重点内容之一。了解搜索引擎收集网页的机制,便于我们更好的理解这项工作。
大规模的搜索引擎,比如Google和百度,是将一批预先收集好的网页进行管理和维护,有两种基本的方法。
定期搜集
每次搜集替换上一次的内容,由于每次都是重新来一次,对于大型搜索引擎来说,每次收集的时间通常会花费几周的时间。这样做的开销比较大,通常两次搜集的间隔时间也很长。这种方法的好处是系统实现比较简单,缺点是实时性不高,还有重复收集所带来的额外带宽的消耗
增量搜集
最初时搜集好一批数据,以后只是搜集新出现的网页和改变的网页并删除不再存在的网页。除了新闻网站外,许多网页的内容并不是经常变化的,这样一来每次搜集的网页量不会很大,于是可以经常进行搜集。30万个网页,在一般的网络条件下,半天也就搜集完了。这样的系统表现出来的信息实时性就会比较高。
在具体搜集过程中,如何抓取一篇篇网页?最常见的是一种所谓的“爬取”,具体过程是,将Web上的网页集合看成是一个有向图,搜集过程从一个起始URL的集合种子(大型站点)开始,沿着网页中的链接,按照先深、先宽或者某种别的策略遍历,不停的从种子中移除URL,下载相应的页面,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的那些URL加入种子集合中。整个过程可以形象的想象成一个蜘蛛在蜘蛛网上爬行。搜索引擎会有多个蜘蛛同时在爬行。
这种方法实现起来不算困难,但如何判断哪些网页相对比较重要。我们知道搜索引擎是不可能将Web上的网页搜集完全的,通常都是在某些条件的限制下来结束搜集过程。因此就有了一个尽量使搜到的网页比较重要的问题,这对于那些并不追求最大的数量覆盖率的搜索引擎特别重要。一般情况下按照先宽搜索方式得到的网页集合要比先深搜索得到的集合重要。
另外一种可能的方式是在第一次全面网页搜集后,系统维护相应的URL集合,往后的搜索直接基于这个集合。每搜到一个网页,如果它发生变化并含有新的URL,则将他们对应的网页也抓回来,并将这些新URL也放到集合中。如果集合中对应的某URL不存在了,就将它删除。这种方式也可以看成是一种极端的先宽搜索,即第一层是一个很大的集合,往下最多只延伸一层。
还有一种方法是网站拥有者主动向搜索引擎提交他们的网址,系统在一定时间内向那些网址派出“蜘蛛”,扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎,比如Google和百度都提供这种功能。
如何推广网站?-联系我们