P37.两个结论
1、 爬虫尽可能选择蝴蝶的左部或者中部的网页为起始
2、 网页分为目录型网页和权威性网页、目录型网页为普通网民服务,便于网民点击从而继续浏览更的网页 

1、目录类型的网页更容易被抓取
2、权威性网页更被看重
权威性网页基本定义:正向连接数相对较少,反向链接数很多。

P38.两个结论
1、爬虫的遍历方式采用宽度优先的遍历方式
2、为了防止爬虫一路走到黑,充分考虑万维网的万维网直径后,采用“深度策略”控制抓取深度,从而完美解决了爬虫一路走到黑的问题

1、把较深的网页提出来,从而增加其宽度
2、在网络建设中,参考网页的平均长度来构架URL的结构

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/31.html