搜索引擎下载系统的体系结构
发布:ycdsk | 发布时间: 2010年6月5日
名词解释:
1) URL库:存放全部历史上曾经抓取过的URL和新增的URL
2) Page库:存放爬虫实际抓取下来的原始网页
图中抓取过程如下:
1) 调度员通过更新规则向URL请求一个URL抓取任务
2) 调度员计算出该URL,然后分配给编号为0的爬虫抓取
3) 爬虫0实际抓取的网页存放在Page库中
4) 爬虫0在抓取的网页中提取其他链接后反馈给调度员
5) 调度员判断网页类型,并设定初始更新时间等后存放在URL库中,继续转1),周而复始
- 相关文章:
《走进搜索引擎》读书笔记--如何选择爬虫(spider) (2010-5-26 8:54:2)
《走进搜索引擎》读书笔记--进一步说明抓取提速策略 (2010-5-26 8:53:18)
《走进搜索引擎》读书笔记--抓取提速策略(合作抓取策略) (2010-5-26 8:52:28)
《走进搜索引擎》读书笔记--Robots协议 (2010-5-26 8:50:37)
《走进搜索引擎》读书笔记--网页更新于泊松过程 (2010-5-26 8:49:40)
《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类 (2010-5-26 8:49:2)
《走进搜索引擎》读书笔记--网页重访策略 (2010-5-26 8:48:3)
《走进搜索引擎》读书笔记--网页抓取优先策略 (2010-5-26 8:45:14)
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





