《走进搜索引擎》读书笔记,第37页-第38页,四个结论
发布:ycdsk | 发布时间: 2010年5月23日P37.两个结论
1、 爬虫尽可能选择蝴蝶的左部或者中部的网页为起始
2、 网页分为目录型网页和权威性网页、目录型网页为普通网民服务,便于网民点击从而继续浏览更的网页
→
1、目录类型的网页更容易被抓取
2、权威性网页更被看重
权威性网页基本定义:正向连接数相对较少,反向链接数很多。
P38.两个结论
1、爬虫的遍历方式采用宽度优先的遍历方式
2、为了防止爬虫一路走到黑,充分考虑万维网的万维网直径后,采用“深度策略”控制抓取深度,从而完美解决了爬虫一路走到黑的问题
→
1、把较深的网页提出来,从而增加其宽度
2、在网络建设中,参考网页的平均长度来构架URL的结构
发布:ycdsk | 分类:读书有感 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
- 相关文章:
搜索引擎发展史,从国外到国内 (2010-5-14 8:52:40)
《走进搜索引擎》相见恨晚 (2010-5-13 20:34:35)
4月19号到4月29号 (2010-5-13 17:10:33)
百度站长俱乐部4月13号到18号问题集锦 (2010-4-19 13:16:18)
推荐一个学习seo 的网站 (2010-3-21 13:20:14)
SEO发展史——(网络黎明前的SEO) (2010-3-6 15:41:49)
杰夫·贾维斯说“人人需要搜索优化” (2010-2-4 21:56:46)
对SEO的七点小看法 (2010-1-4 21:9:50)
seo与普通发布信息的对比 (2009-12-3 18:13:19)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





