《走进搜索引擎》读书笔记--抓取提速策略(合作抓取策略)
发布:ycdsk | 发布时间: 2010年5月26日提速基本可以采用下面几种方法:
1) 提高抓取单个页面的速度
2) 尽可能减少不必要的抓取任务
3) 增加同时工作的爬虫数量
事实证明,受到万维网发展水平限制,第1)种方法基本不可行,单个页面抓取速度受到下载带宽的限制,在现有技术条件下很难任意提高;第2)种方法难度很大,由于需要和万维网的变化保持紧密同步,所以冗余的抓取总是不可避免的;第3)种方法通过增加爬虫数量提高总体抓取速度是可行的。
→
多爬虫合作抓取是目前主流搜索引擎抓取策略之一。书中提到:在多个爬虫抓取的情况下,如何将工作量分解成为主要的问题。即要解决一个网页交给哪一个爬虫抓取?如果分工不明,很可能多个爬虫抓取了相同的网页,从而引入额外的开销。通产采用以下两种方法来进行抓取任务的分解:
1) 通过web主机的IP地址来分解,使某个爬虫仅抓取某个地址段的网页
2) 通过网页的域名来分解,使某个爬虫紧抓取某个域名段的网页
- 相关文章:
《走进搜索引擎》读书笔记--Robots协议 (2010-5-26 8:50:37)
《走进搜索引擎》读书笔记--网页更新于泊松过程 (2010-5-26 8:49:40)
《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类 (2010-5-26 8:49:2)
《走进搜索引擎》读书笔记--网页重访策略 (2010-5-26 8:48:3)
《走进搜索引擎》读书笔记--网页抓取优先策略 (2010-5-26 8:45:14)
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





