读完百度官方的优化建议,相信有经验的seoer一定觉得不够过瘾吧。下面是笔者针对建议的一些看法:
1、关于域名注册:建议里面只提用户体验,未谈rul里含有关键词的权重问题。
2、关于服务器、空间租用:未谈及baiduspider在宕机时的抓取策略。我们知道谷歌有一个盒子专门记录当robot访问宕机的主机时的次数,从而决定是否经常关顾此网站。
3、关于机器可读:未谈及SE的索引机制,以及主附索引的转化关系。另外在建议中,百度提出的建议是少用flash、图片、JavaScript等ajax技术,但这些技术往往可以给用户更好的体验。
...- 添加新评论
- 阅读次数:
- 添加新评论
- 阅读次数:
今日偶然间发现的,麦包包的seoer真是个聪明的家伙。我只列出了百度的指数和排名,是因为百度日均搜索量达到了220000+,相比其他搜索引擎要大得多。而实际上,“开心网”这个关键词在谷歌和有道的搜索结果里,麦包包网站也出现在了首页,不过搜索量相比百度,却是冰山一角了。个人认为这是seo中借力策略的很好案例了,特此奉上,大家品尝吧!

- 添加新评论
- 阅读次数:

名词解释:
1) URL库:存放全部历史上曾经抓取过的URL和新增的URL
2) Page库:存放爬虫实际抓取下来的原始网页
...
- 添加新评论
- 阅读次数:
首先假定有n个爬虫可以并行工作,并且定义一个可以提取URL域名的函数domain,例如:URL=http://fiancé.sina.com.cn/g/20070317/17163416577.shtml
domain(URL)=fiancé.sina.com
说明如下:
1) 对任意的URL,利用domain函数提取URL的域名
2) 用MD5签名函数签名域名,MD5(domain(URL))
...
- 添加新评论
- 阅读次数:
通过比较,为了照顾大站,按照域名分解的策略更加合理。在下载系统中,按照域名分解抓取任务的工作由一个称为“调度员”的模块来处理。通过域名分解将不同的域名调度给不同的爬虫进行抓取。因此,下载系统主要有爬虫和调度员构成
→
用生活中的例子来解释爬虫和调度员的关系。我们家那里有一个超市,提供这样一种服务。当购物者消费满20元时,就可以免费乘坐超市提供的小车来回家。由于小车有限,因此需要一个调度来安排空闲的小车和所要开往的站点。从而有效地协调运输的效率,避免了一个站点多个小车或是一些站点没有小车的情况。
...
- 添加新评论
- 阅读次数:
提速基本可以采用下面几种方法:
1) 提高抓取单个页面的速度
2) 尽可能减少不必要的抓取任务
3) 增加同时工作的爬虫数量
事实证明,受到万维网发展水平限制,第1)种方法基本不可行,单个页面抓取速度受到下载带宽的限制,在现有技术条件下很难任意提高;第2)种方法难度很大,由于需要和万维网的变化保持紧密同步,所以冗余的抓取总是不可避免的;第3)种方法通过增加爬虫数量提高总体抓取速度是可行的。
→
...
- 添加新评论
- 阅读次数:
Robots协议时web站点和搜索引擎爬虫交互的一种方式,即将一个robots.txt的文件放在网站的根目录上
→
robots协议是网站与爬虫对话的平台。站长们可以建一个以.txt为扩展名的记事本文件,文件名为robots,在这个文件中,可以填写协议规则来告诉爬虫此网站的哪些页面是不允许抓取的,也可以阻止某些爬虫的抓取
- 添加新评论
- 阅读次数:

...
- 添加新评论
- 阅读次数:
1) 统一重访策略:爬虫以同样的频率重访已经抓取的全部网页,已获得统一的更新机会,所有的网页不加区别的按照同样的频率被爬虫重访。
2) 个体重访策略:不同网页的改变频率不同,爬虫根据其更新频率来决定重访该个体页面的频率。
→
虽然笔者未证实百度、谷歌等著名搜索引擎的重访策略,不过笔者通过不同网站的web日志可以判断,这些搜索引擎应该结合运用了统一和个体两种重访策略。
- 添加新评论
- 阅读次数:





