提速基本可以采用下面几种方法:
1) 提高抓取单个页面的速度
2) 尽可能减少不必要的抓取任务
3) 增加同时工作的爬虫数量
事实证明,受到万维网发展水平限制,第1)种方法基本不可行,单个页面抓取速度受到下载带宽的限制,在现有技术条件下很难任意提高;第2)种方法难度很大,由于需要和万维网的变化保持紧密同步,所以冗余的抓取总是不可避免的;第3)种方法通过增加爬虫数量提高总体抓取速度是可行的。

多爬虫合作抓取是目前主流搜索引擎抓取策略之一。书中提到:在多个爬虫抓取的情况下,如何将工作量分解成为主要的问题。即要解决一个网页交给哪一个爬虫抓取?如果分工不明,很可能多个爬虫抓取了相同的网页,从而引入额外的开销。通产采用以下两种方法来进行抓取任务的分解:
1) 通过web主机的IP地址来分解,使某个爬虫仅抓取某个地址段的网页
2) 通过网页的域名来分解,使某个爬虫紧抓取某个域名段的网页

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/46.html