《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类
发布:ycdsk | 发布时间: 2010年5月26日1) 统一重访策略:爬虫以同样的频率重访已经抓取的全部网页,已获得统一的更新机会,所有的网页不加区别的按照同样的频率被爬虫重访。
2) 个体重访策略:不同网页的改变频率不同,爬虫根据其更新频率来决定重访该个体页面的频率。
→
虽然笔者未证实百度、谷歌等著名搜索引擎的重访策略,不过笔者通过不同网站的web日志可以判断,这些搜索引擎应该结合运用了统一和个体两种重访策略。
发布:ycdsk | 分类:读书有感 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
- 相关文章:
《走进搜索引擎》读书笔记--网页重访策略 (2010-5-26 8:48:3)
《走进搜索引擎》读书笔记--网页抓取优先策略 (2010-5-26 8:45:14)
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
《走进搜索引擎》读书笔记--Backlinks (2010-5-26 8:40:37)
《走进搜索引擎》读书笔记--种子站点 (2010-5-26 8:39:23)
《走进搜索引擎》读书笔记,网页的特征 (2010-5-26 8:38:15)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





