通过比较,为了照顾大站,按照域名分解的策略更加合理。在下载系统中,按照域名分解抓取任务的工作由一个称为“调度员”的模块来处理。通过域名分解将不同的域名调度给不同的爬虫进行抓取。因此,下载系统主要有爬虫和调度员构成

用生活中的例子来解释爬虫和调度员的关系。我们家那里有一个超市,提供这样一种服务。当购物者消费满20元时,就可以免费乘坐超市提供的小车来回家。由于小车有限,因此需要一个调度来安排空闲的小车和所要开往的站点。从而有效地协调运输的效率,避免了一个站点多个小车或是一些站点没有小车的情况。
此例中,小车就可以看作是爬虫,通过与调度员的合作,更加有效的进行网页下载的工作。

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/47.html