原文由北京网站优化提供,转载请著名链接!
在互联网中,网页之间的链接关系是无规律的,它们的关系非常复杂。如果一个爬虫从一个起点开始爬行,那么它将会遇到无数的分支,由此生成无数条的爬行路径,如果任期爬行,就有可能永远也爬不到头,因此要对它加以控制,制定其爬行的规则。世界上没有一种爬虫能够抓取到互联网所有的网页,所以就要在提高其爬行速度的同时,也要提高其爬行网页的质量。
网络爬虫在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络爬虫的好坏之间影响搜索引擎结果页中的死链接的个数。搜索引擎爬虫有深度优先策略和广度优先策略,另外,识别垃圾网页,避免抓取重复网页,也是高性能爬虫的设计目标。
爬虫的作用是为了搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页。爬虫程序不可能抓取所有的网页,因为在抓取的同时,Web的规模也在增大,所以一个好的爬虫程序一般能够在短时间内抓取更多的网页。一般爬虫程序的起点都选择在一个大型综合型的网站,这样的网站已经涵盖了大部分高质量的站点,爬虫程序就沿着这些链接爬行。在爬行过程中,最重要的就是判断一个网页是否已经被爬行过。
爬虫的运行程序如下:
在爬虫开始的时候,需要给爬虫输送一个URL列表,这个列表中的URL地址便是爬虫的起始位置,爬虫从这些URL出发,开始了爬行,一直不断地发现新的URL,然后再根据策略爬行这些新发现的URL,如此永远反复下去。一般的爬虫都自己建立DNS缓冲,建立DNS缓冲的目的是加快URL解析成IP地址的速度。
北京网络推广服务