由于时间因素,链接策略并不完美。爬虫日积月累地下载各种各样的网页,然而过去的网页可能变化了。因此爬虫不得不周期性的刷新(refresh),重访那些已经下载的网页。通过重访以便这些网页能够与万维网的变化与时俱进。
→
如何判断再一次访问的时间,书中P61-P63中详细解释了这一策略——泊松过程模型,想要了解泊松过程模型的更多内容可以在wiki或是百度百科里查阅。网页变化符合泊松过程模型,因此网页寿命的时间间隔也就可以计算出来了。
- 添加新评论
- 阅读次数:
判断一个页面的重要性主要有三个因素:链接欢迎程度、链接重要度、平均链接深度
链接欢迎度为IB(P),它主要由反向链接的数目和质量决定
链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为“.com”或者“home”的URL重要度,以及具有较少斜杠(slash)的URL重要度高等。
平局链接深度ID(P),表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。
...
- 添加新评论
- 阅读次数:
多爬虫合作抓取:如果n个爬虫,则可将哈希表继续压缩到原有大小的n分之一。
→
正因为采用爬虫合作抓取,往往有一些原创文章不及此文章的copy的版收录速度,这是因为,copy版抢先占据了格子。
多爬虫合作抓取也恰好说明了重要性网页要比普通网页更容易被抓取
- 添加新评论
- 阅读次数:
主要利用哈希函数与bitmap的数据结构来完成对号入座的抓取策略。如果用原文解释这一过程(对号入座),不免有许多人都会一头雾水,笔者用一个例子来说明这一抓取策略。假设有足够多的格子,并为其编号,顺序为1到N。然后有1到N个编号的小球并且不唯一,随机抽取一个编号35的小球,对应的放到编号35的格子中,这样一次抓取结束。另外所要注意的是,所有第一次抽取的小球都会按照这个规则进行对好入座,假设再一次抽取时,又抽到35号小球,而35号格子已经放有35号小球,那么就确定此次抽取失败,一次类推,循环往复。
...
- 添加新评论
- 阅读次数:
例

...
- 添加新评论
- 阅读次数:
1)深度优先策略
例:长子→长孙→长孙的其他兄弟→次子→次子的其他兄弟
祖 先
↓
长子⑴→次子⑷→其他兄弟⑸
↓
长孙⑵→其他兄弟⑶
2)宽度优先策略
例:
论辈分,小辈永远次于长辈
长子→次子→次子→…………
...
- 添加新评论
- 阅读次数:
包括抓取、策略和储存
抓取是爬虫的基本劳动过程;策略是爬虫智慧的中枢;储存时爬虫的劳动成果
- 添加新评论
- 阅读次数:
一个网页的Backlinks是那些处网页自身之外指向自身链接的集合,Backlinks的数目是衡量→网页受欢迎程度的重要度量方式之一:增加网页反向链接的数目。就目前来说Backlinks仍然是排名位置的主要因素,高质量的链接是排名的有利支撑,不容忽视!
- 添加新评论
- 阅读次数:
定义:种子站点是爬虫开始抓取的起点,通常为各大门户网站和官方网站的首页等
→
快速收录办法
1、让以上网站链接自己的站,缩短网页直径。从网页直径这一概念也可以很好的解释搜索引擎收录的时间问题
2.发布一些带有自己网站链接的高质量软文,投稿各大种子站点。
- 添加新评论
- 阅读次数:
P39.网页的特征
1、 挥发性:从网页诞生到消亡
2、 半结构性:HTML语言描述的网页是一种板结构化数据
3、 隐蔽性:除了静态网页以外,还有很多隐藏的动态页面,例如需要登录才能看到的某些动态页面
- 添加新评论
- 阅读次数:





