《走进搜索引擎》读书笔记--网页重访策略
发布:ycdsk | 发布时间: 2010年5月26日由于时间因素,链接策略并不完美。爬虫日积月累地下载各种各样的网页,然而过去的网页可能变化了。因此爬虫不得不周期性的刷新(refresh),重访那些已经下载的网页。通过重访以便这些网页能够与万维网的变化与时俱进。
→
如何判断再一次访问的时间,书中P61-P63中详细解释了这一策略——泊松过程模型,想要了解泊松过程模型的更多内容可以在wiki或是百度百科里查阅。网页变化符合泊松过程模型,因此网页寿命的时间间隔也就可以计算出来了。
发布:ycdsk | 分类:读书有感 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
- 相关文章:
《走进搜索引擎》读书笔记--网页抓取优先策略 (2010-5-26 8:45:14)
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
《走进搜索引擎》读书笔记--Backlinks (2010-5-26 8:40:37)
《走进搜索引擎》读书笔记--种子站点 (2010-5-26 8:39:23)
《走进搜索引擎》读书笔记,网页的特征 (2010-5-26 8:38:15)
《走进搜索引擎》读书笔记,第37页-第38页,四个结论 (2010-5-23 16:7:58)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





