0代表门户首页,离门户首页越近的网页越重要,为了简化描述,这里使用树形结构,树的基本特点:任何两点之间只有唯一的路径,即不会出现环路。万维网中存在大量的环路,实际上网页6可能存在指向网页0的链接。如果没有任何判断,则爬虫永远抓取不完,因为存在0、2和6这样一个死循环。死循环的后果:不该抓取的反复抓取,占用大量CPU和宽带资源;该抓取的没有机会抓取

快速收录:尽量使自己站的URL出现在种子站点的首页;网站结构采用树形结构

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/38.html