搜素引擎下载系统的体系结构

名词解释:
1) URL库:存放全部历史上曾经抓取过的URL和新增的URL
2) Page库:存放爬虫实际抓取下来的原始网页
图中抓取过程如下:
1) 调度员通过更新规则向URL请求一个URL抓取任务
2) 调度员计算出该URL,然后分配给编号为0的爬虫抓取
3) 爬虫0实际抓取的网页存放在Page库中
4) 爬虫0在抓取的网页中提取其他链接后反馈给调度员
5) 调度员判断网页类型,并设定初始更新时间等后存放在URL库中,继续转1),周而复始

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/50.html