《走进搜索引擎》读书笔记--进一步说明抓取提速策略
发布:ycdsk | 发布时间: 2010年5月26日通过比较,为了照顾大站,按照域名分解的策略更加合理。在下载系统中,按照域名分解抓取任务的工作由一个称为“调度员”的模块来处理。通过域名分解将不同的域名调度给不同的爬虫进行抓取。因此,下载系统主要有爬虫和调度员构成
→
用生活中的例子来解释爬虫和调度员的关系。我们家那里有一个超市,提供这样一种服务。当购物者消费满20元时,就可以免费乘坐超市提供的小车来回家。由于小车有限,因此需要一个调度来安排空闲的小车和所要开往的站点。从而有效地协调运输的效率,避免了一个站点多个小车或是一些站点没有小车的情况。
此例中,小车就可以看作是爬虫,通过与调度员的合作,更加有效的进行网页下载的工作。
- 相关文章:
《走进搜索引擎》读书笔记--抓取提速策略(合作抓取策略) (2010-5-26 8:52:28)
《走进搜索引擎》读书笔记--Robots协议 (2010-5-26 8:50:37)
《走进搜索引擎》读书笔记--网页更新于泊松过程 (2010-5-26 8:49:40)
《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类 (2010-5-26 8:49:2)
《走进搜索引擎》读书笔记--网页重访策略 (2010-5-26 8:48:3)
《走进搜索引擎》读书笔记--网页抓取优先策略 (2010-5-26 8:45:14)
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





