《走进搜索引擎》读书笔记--进一步分析深度优先策略
发布:ycdsk | 发布时间: 2010年5月26日例

0代表门户首页,离门户首页越近的网页越重要,为了简化描述,这里使用树形结构,树的基本特点:任何两点之间只有唯一的路径,即不会出现环路。万维网中存在大量的环路,实际上网页6可能存在指向网页0的链接。如果没有任何判断,则爬虫永远抓取不完,因为存在0、2和6这样一个死循环。死循环的后果:不该抓取的反复抓取,占用大量CPU和宽带资源;该抓取的没有机会抓取
→
快速收录:尽量使自己站的URL出现在种子站点的首页;网站结构采用树形结构
发布:ycdsk | 分类:读书有感 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
- 相关文章:
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
《走进搜索引擎》读书笔记--Backlinks (2010-5-26 8:40:37)
《走进搜索引擎》读书笔记--种子站点 (2010-5-26 8:39:23)
《走进搜索引擎》读书笔记,网页的特征 (2010-5-26 8:38:15)
《走进搜索引擎》读书笔记,第37页-第38页,四个结论 (2010-5-23 16:7:58)
搜索引擎发展史,从国外到国内 (2010-5-14 8:52:40)
《走进搜索引擎》相见恨晚 (2010-5-13 20:34:35)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





