《走进搜索引擎》读书笔记--多爬虫合作抓取
发布:ycdsk | 发布时间: 2010年5月26日多爬虫合作抓取:如果n个爬虫,则可将哈希表继续压缩到原有大小的n分之一。
→
正因为采用爬虫合作抓取,往往有一些原创文章不及此文章的copy的版收录速度,这是因为,copy版抢先占据了格子。
多爬虫合作抓取也恰好说明了重要性网页要比普通网页更容易被抓取
发布:ycdsk | 分类:读书有感 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
- 相关文章:
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
《走进搜索引擎》读书笔记--Backlinks (2010-5-26 8:40:37)
《走进搜索引擎》读书笔记--种子站点 (2010-5-26 8:39:23)
《走进搜索引擎》读书笔记,网页的特征 (2010-5-26 8:38:15)
《走进搜索引擎》读书笔记,第37页-第38页,四个结论 (2010-5-23 16:7:58)
搜索引擎发展史,从国外到国内 (2010-5-14 8:52:40)
《走进搜索引擎》相见恨晚 (2010-5-13 20:34:35)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





