《走进搜索引擎》读书笔记--网页更新于泊松过程
发布:ycdsk | 发布时间: 2010年5月26日
图中分别描述了“.com”“.net”“.edu”“.gov”的网页更新的泊松分布。由图中可知:.com类型的网页变化最剧烈,.gov类型、.edu类型的网页变化最少。因此给予不同类型的网页不同的重访频率是科学的。网页更新策略的3个重要结论:
1) 网页更新过程符合泊松过程
2) 网页更新时间间隔符合泊松指数分布
3) 对于不同类型的网页采用不同的更新策略
发布:ycdsk | 分类:读书有感 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
- 相关文章:
《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类 (2010-5-26 8:49:2)
《走进搜索引擎》读书笔记--网页重访策略 (2010-5-26 8:48:3)
《走进搜索引擎》读书笔记--网页抓取优先策略 (2010-5-26 8:45:14)
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
《走进搜索引擎》读书笔记--Backlinks (2010-5-26 8:40:37)
《走进搜索引擎》读书笔记--种子站点 (2010-5-26 8:39:23)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





