P37.两个结论
1、 爬虫尽可能选择蝴蝶的左部或者中部的网页为起始
2、 网页分为目录型网页和权威性网页、目录型网页为普通网民服务,便于网民点击从而继续浏览更的网页
→
1、目录类型的网页更容易被抓取
2、权威性网页更被看重
...
- 添加新评论
- 阅读次数:
*{
font-size:12px; 元素文本的字号大小
}
body{ 定义html文档的主体
...
- 添加新评论
- 阅读次数:
第一章主要讲的内容是搜索引擎的发展史,从万维网的诞生,到网络爬虫的出现;从人工发现信息,到由下载系统自动抓取信息;从王牌雅虎,到新兴谷歌。这一章里都会已时间为线索一一展开,由于这一部分知识尚未涉及到搜索引擎优化的内容,因此,笔者只作为补充知识来阅读。
处于好奇,笔者在百度里输入“搜索引擎的发展历史”,得到的结果大多一样,而且相比之下,逊色于书中的内容,因此笔者决定,引用原文内容,传播该书作者的劳动成果。
注:翻译后文中出现“P”,表示书中的页数
- 添加新评论
- 阅读次数:
遇到此书实属无奈之举,如果不是因为要借的书,已经被别人借走了,可能读到此书时会更晚一些,这也算是幸运吧,看来这次我是塞翁失马了,呵呵!
在写我的读书笔记之前,还要唠叨两句。笔者是从事网络营销工作的,搜索引擎这一环节可谓是重中之重,从这一点来看,此书可谓是入门第一书,这是笔者在读过一些seo的书籍后,对比中所得出的一个建议,如果你打算学习seo或是sem的话,那么此书应该当做教科书来系统的学习一下。
此书主要适合三类人群使用:
1、想从事搜索引擎的学生以及有相关教学但无实践经验的大中院校老师
...
- 添加新评论
- 阅读次数:
1、网页体积与索引的关系
问题补充:
以前百度显示网页体积的时候最大是125K,超过这个范围快照显示就不正常,是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了?
答:
页面大小和搜索引擎的抓取之间没有直接关系。
但我们建议网页(包括代码在内)不要过大,过大的网页会有抓取截断;而内容部分,也不要过大,过大会被索引截断。当然,抓取截断的上限,会远大于索引截断的上限。
- 添加新评论
- 阅读次数:
1、HTTPS的网页网页被收录?
问题补充:一般来说,网站所有者不是太希望 https 的网页被收录。如果收录了,如果处理?把 https 的网页URL更换成 http 形式的? 还有一种情况,就是 ip 地址形式的URL被收录。
答:如果不希望被收录,常规的做法是设置robots文件。
https主要的出发点是安全,并没有太多考虑搜索引擎。从用户角度,很多采用了 https的站点(尤其是首页),也是需要被搜索到的,比如支付宝,贝宝等。通常情况下,搜索引擎对这类网页并不做内容解析,而只是将url进行索引。
...
- 添加新评论
- 阅读次数:
今天起来得比平时还要早,可能是天气好的缘故吧,拉开窗帘,打开半扇窗,呼吸清晨时的新鲜空气!回想上周的阴雨天耽误了去图书馆的计划,这次终于可以补上了。顺便说一下我的选书和读书习惯,一般说来,我都会先在网上看看最近有没有什么新书,然后再到上海图书馆的网站上查阅对应的图书,如果有新书以及图书馆有这本书的话,我就会决定亲自跑一趟图书馆去借阅,新书不说,省钱是关键。当然,也有运气不佳的时候,图书馆的网站上提示此书正在“编目中”,那我只好在网上买!我经常查阅的网站就是亚马逊了,一是考虑亚马逊的图书量,二是在亚马逊的购书体验至今还没有其他网站可以比得上。比如上周在网上查找关于网络营销的书籍,10年出版的相关书籍就已经有三本了,但都是国内的一些学者所著,相比之下我更愿意看国外的译书,事实上如果我的英语能力可以达到读书的水平,我会去看原著的!
...
- 添加新评论
- 阅读次数:
前言:以下25个问题都是普遍站长所关注的问题,因此笔者进行了部分摘录,涵盖这 一时期百度站长俱乐部的总问题量的百分之九十,当然你也可以直接进入百度站长俱 乐部进行进一步的跟踪了解:http://tieba.baidu.com/club/93749161、 一般来说,网站所有者不是太希望 https 的网页被收录。如果收录了,如果处理?把 https 的网页URL更换成 http 形式的?还有一
- 添加新评论
- 阅读次数:
写这篇文章的目的是想给很多企业提个醒(包括我本人),当你想开设一个企业博客时,先对自己的企业博客做一个简单的分析,就像做营销一样,你需要了解产品、市场、同行等等,然后定位。在“我为公司开设的企业博客”这篇文章里,我介绍了我建设企业博客的一些方法,还记得我是如何做分类的吗?我是按照部门来划分的,目的是想以这种方式调动公司上下员工的写作热情,形式上以积分的多少来换取
- 添加新评论
- 阅读次数:
- 添加新评论
- 阅读次数:





