由于时间因素,链接策略并不完美。爬虫日积月累地下载各种各样的网页,然而过去的网页可能变化了。因此爬虫不得不周期性的刷新(refresh),重访那些已经下载的网页。通过重访以便这些网页能够与万维网的变化与时俱进。

如何判断再一次访问的时间,书中P61-P63中详细解释了这一策略——泊松过程模型,想要了解泊松过程模型的更多内容可以在wiki或是百度百科里查阅。网页变化符合泊松过程模型,因此网页寿命的时间间隔也就可以计算出来了。

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/42.html