多爬虫合作抓取:如果n个爬虫,则可将哈希表继续压缩到原有大小的n分之一。

正因为采用爬虫合作抓取,往往有一些原创文章不及此文章的copy的版收录速度,这是因为,copy版抢先占据了格子。
多爬虫合作抓取也恰好说明了重要性网页要比普通网页更容易被抓取

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/40.html