《走进搜索引擎》读书笔记--如何选择爬虫(spider)
发布:ycdsk | 发布时间: 2010年5月26日首先假定有n个爬虫可以并行工作,并且定义一个可以提取URL域名的函数domain,例如:URL=http://fiancé.sina.com.cn/g/20070317/17163416577.shtml
domain(URL)=fiancé.sina.com
说明如下:
1) 对任意的URL,利用domain函数提取URL的域名
2) 用MD5签名函数签名域名,MD5(domain(URL))
3) 讲MD5签名值对n取模运算,int spider_no= MD5(domain(URL))%n
4) 该URL分配给编号为spider_no的爬虫进行抓取
- 相关文章:
《走进搜索引擎》读书笔记--进一步说明抓取提速策略 (2010-5-26 8:53:18)
《走进搜索引擎》读书笔记--抓取提速策略(合作抓取策略) (2010-5-26 8:52:28)
《走进搜索引擎》读书笔记--Robots协议 (2010-5-26 8:50:37)
《走进搜索引擎》读书笔记--网页更新于泊松过程 (2010-5-26 8:49:40)
《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类 (2010-5-26 8:49:2)
《走进搜索引擎》读书笔记--网页重访策略 (2010-5-26 8:48:3)
《走进搜索引擎》读书笔记--网页抓取优先策略 (2010-5-26 8:45:14)
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





