[置顶] 这篇文章概括了这个博客的全部内容

读百度seo指南后感

读完百度官方的优化建议,相信有经验的seoer一定觉得不够过瘾吧。下面是笔者针对建议的一些看法:

1、关于域名注册:建议里面只提用户体验,未谈rul里含有关键词的权重问题。

2、关于服务器、空间租用:未谈及baiduspider在宕机时的抓取策略。我们知道谷歌有一个盒子专门记录当robot访问宕机的主机时的次数,从而决定是否经常关顾此网站。

3、关于机器可读:未谈及SE的索引机制,以及主附索引的转化关系。另外在建议中,百度提出的建议是少用flash、图片、JavaScript等ajax技术,但这些技术往往可以给用户更好的体验。

...

标签:

搜索引擎下载系统的体系结构

搜素引擎下载系统的体系结构

名词解释:
1) URL库:存放全部历史上曾经抓取过的URL和新增的URL
2) Page库:存放爬虫实际抓取下来的原始网页
...

标签:

《走进搜索引擎》读书笔记--如何选择爬虫(spider)

首先假定有n个爬虫可以并行工作,并且定义一个可以提取URL域名的函数domain,例如:URL=http://fiancé.sina.com.cn/g/20070317/17163416577.shtml
domain(URL)=fiancé.sina.com
说明如下:
1) 对任意的URL,利用domain函数提取URL的域名
2) 用MD5签名函数签名域名,MD5(domain(URL))
...

标签:

通过比较,为了照顾大站,按照域名分解的策略更加合理。在下载系统中,按照域名分解抓取任务的工作由一个称为“调度员”的模块来处理。通过域名分解将不同的域名调度给不同的爬虫进行抓取。因此,下载系统主要有爬虫和调度员构成

用生活中的例子来解释爬虫和调度员的关系。我们家那里有一个超市,提供这样一种服务。当购物者消费满20元时,就可以免费乘坐超市提供的小车来回家。由于小车有限,因此需要一个调度来安排空闲的小车和所要开往的站点。从而有效地协调运输的效率,避免了一个站点多个小车或是一些站点没有小车的情况。
...

标签:

提速基本可以采用下面几种方法:
1) 提高抓取单个页面的速度
2) 尽可能减少不必要的抓取任务
3) 增加同时工作的爬虫数量
事实证明,受到万维网发展水平限制,第1)种方法基本不可行,单个页面抓取速度受到下载带宽的限制,在现有技术条件下很难任意提高;第2)种方法难度很大,由于需要和万维网的变化保持紧密同步,所以冗余的抓取总是不可避免的;第3)种方法通过增加爬虫数量提高总体抓取速度是可行的。

...

标签:

《走进搜索引擎》读书笔记--Robots协议

Robots协议时web站点和搜索引擎爬虫交互的一种方式,即将一个robots.txt的文件放在网站的根目录上

robots协议是网站与爬虫对话的平台。站长们可以建一个以.txt为扩展名的记事本文件,文件名为robots,在这个文件中,可以填写协议规则来告诉爬虫此网站的哪些页面是不允许抓取的,也可以阻止某些爬虫的抓取

标签:

《走进搜索引擎》读书笔记--网页更新于泊松过程


...

标签:

1) 统一重访策略:爬虫以同样的频率重访已经抓取的全部网页,已获得统一的更新机会,所有的网页不加区别的按照同样的频率被爬虫重访。
2) 个体重访策略:不同网页的改变频率不同,爬虫根据其更新频率来决定重访该个体页面的频率。

虽然笔者未证实百度、谷歌等著名搜索引擎的重访策略,不过笔者通过不同网站的web日志可以判断,这些搜索引擎应该结合运用了统一和个体两种重访策略。

...

标签:

《走进搜索引擎》读书笔记--网页重访策略

由于时间因素,链接策略并不完美。爬虫日积月累地下载各种各样的网页,然而过去的网页可能变化了。因此爬虫不得不周期性的刷新(refresh),重访那些已经下载的网页。通过重访以便这些网页能够与万维网的变化与时俱进。

如何判断再一次访问的时间,书中P61-P63中详细解释了这一策略——泊松过程模型,想要了解泊松过程模型的更多内容可以在wiki或是百度百科里查阅。网页变化符合泊松过程模型,因此网页寿命的时间间隔也就可以计算出来了。

...

标签:

《走进搜索引擎》读书笔记--网页抓取优先策略

判断一个页面的重要性主要有三个因素:链接欢迎程度、链接重要度、平均链接深度
链接欢迎度为IB(P),它主要由反向链接的数目和质量决定
链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为“.com”或者“home”的URL重要度,以及具有较少斜杠(slash)的URL重要度高等。
平局链接深度ID(P),表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。
...

标签: