《走进搜索引擎》读书笔记--不重复抓取策略
发布:ycdsk | 发布时间: 2010年5月26日主要利用哈希函数与bitmap的数据结构来完成对号入座的抓取策略。如果用原文解释这一过程(对号入座),不免有许多人都会一头雾水,笔者用一个例子来说明这一抓取策略。假设有足够多的格子,并为其编号,顺序为1到N。然后有1到N个编号的小球并且不唯一,随机抽取一个编号35的小球,对应的放到编号35的格子中,这样一次抓取结束。另外所要注意的是,所有第一次抽取的小球都会按照这个规则进行对好入座,假设再一次抽取时,又抽到35号小球,而35号格子已经放有35号小球,那么就确定此次抽取失败,一次类推,循环往复。
实际的抽取中,要比上例复杂很多,不过原理相同。
发布:ycdsk | 分类:读书有感 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
- 相关文章:
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
《走进搜索引擎》读书笔记--Backlinks (2010-5-26 8:40:37)
《走进搜索引擎》读书笔记--种子站点 (2010-5-26 8:39:23)
《走进搜索引擎》读书笔记,网页的特征 (2010-5-26 8:38:15)
《走进搜索引擎》读书笔记,第37页-第38页,四个结论 (2010-5-23 16:7:58)
搜索引擎发展史,从国外到国内 (2010-5-14 8:52:40)
《走进搜索引擎》相见恨晚 (2010-5-13 20:34:35)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





