首先假定有n个爬虫可以并行工作,并且定义一个可以提取URL域名的函数domain,例如:URL=http://fiancé.sina.com.cn/g/20070317/17163416577.shtml
domain(URL)=fiancé.sina.com
说明如下:
1) 对任意的URL,利用domain函数提取URL的域名
2) 用MD5签名函数签名域名,MD5(domain(URL))
3) 讲MD5签名值对n取模运算,int spider_no= MD5(domain(URL))%n
4) 该URL分配给编号为spider_no的爬虫进行抓取
 

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/48.html