《走进搜索引擎》读书笔记--网页抓取优先策略
发布:ycdsk | 发布时间: 2010年5月26日判断一个页面的重要性主要有三个因素:链接欢迎程度、链接重要度、平均链接深度
链接欢迎度为IB(P),它主要由反向链接的数目和质量决定
链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为“.com”或者“home”的URL重要度,以及具有较少斜杠(slash)的URL重要度高等。
平局链接深度ID(P),表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。
定义网页重要性的度量为I(P),可量化为:
I(P)=a×IB(P)+β×IL(P)
→
1)若想提高网页被抓取的机会,可以利用链接原则来实施
2)书中所提到的链接重要度,可以理解为URL的深度,URL越深,重要度越低。比如www.ycdsk.com要比http://www.ycdsk.com/post/31.html重要,以此类推
3)由于重要性网页可直接量化为链接欢迎度+链接重要度,因此对单页面优化可转化为:连接数量+链接质量
4)链接质量和链接重要度是有区别的,链接重要度是单纯的考虑URL的级数,级数越低越重要。链接质量则不单纯考虑URL的级数,简单的说,有一些内页的链接质量高于首页的链接。打个比方,在只考虑外部链接这一个因素的排名情况下,假设www.ycdsk.com 被链接100次,http://www.ycdsk.com/post/31.html被连接200次,那么后者的链接诶质量要比前者高。
- 相关文章:
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
《走进搜索引擎》读书笔记--Backlinks (2010-5-26 8:40:37)
《走进搜索引擎》读书笔记--种子站点 (2010-5-26 8:39:23)
《走进搜索引擎》读书笔记,网页的特征 (2010-5-26 8:38:15)
《走进搜索引擎》读书笔记,第37页-第38页,四个结论 (2010-5-23 16:7:58)
搜索引擎发展史,从国外到国内 (2010-5-14 8:52:40)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





