《走进搜索引擎》读书笔记--Robots协议
发布:ycdsk | 发布时间: 2010年5月26日Robots协议时web站点和搜索引擎爬虫交互的一种方式,即将一个robots.txt的文件放在网站的根目录上
→
robots协议是网站与爬虫对话的平台。站长们可以建一个以.txt为扩展名的记事本文件,文件名为robots,在这个文件中,可以填写协议规则来告诉爬虫此网站的哪些页面是不允许抓取的,也可以阻止某些爬虫的抓取
robots协议通过User-agent和Disallow告知搜素引擎非公开目录和非公开网页。说明如下:
1) User-agent:*:表示对一切搜索引擎爬虫有效,如果特别针对某个爬虫,则可以写明。
2) Disallow:/2004/ontaria/basic:表示禁止抓取这个目录。
→
继续解释1)中,如果特别针对某个爬虫,比如你的网站想让谷歌抓取,则可以写User-agent:googlebot
我们可以随处引用一个站点来学习robots协议,比如www.baidu.com/robots.txt,打开后,我们可以找到百度填写的robots协议。如果当你在分析某个网站时,未能找到robots协议的话,证明该站点的根目录里未放有robots协议。此时爬虫会按照User-agent:*的指令来进行抓取,同时也可以说明该站并不重视与爬虫对话。
- 相关文章:
《走进搜索引擎》读书笔记--网页更新于泊松过程 (2010-5-26 8:49:40)
《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类 (2010-5-26 8:49:2)
《走进搜索引擎》读书笔记--网页重访策略 (2010-5-26 8:48:3)
《走进搜索引擎》读书笔记--网页抓取优先策略 (2010-5-26 8:45:14)
《走进搜索引擎》读书笔记--多爬虫合作抓取 (2010-5-26 8:44:31)
《走进搜索引擎》读书笔记--不重复抓取策略 (2010-5-26 8:43:42)
《走进搜索引擎》读书笔记--进一步分析深度优先策略 (2010-5-26 8:42:57)
《走进搜索引擎》读书笔记--爬虫的两种抓取“顺序” (2010-5-26 8:42:11)
《走进搜索引擎》读书笔记--爬虫的工作原理 (2010-5-26 8:41:11)
《走进搜索引擎》读书笔记--Backlinks (2010-5-26 8:40:37)
- 1.QQ餐厅
- http://www.qqcanting.net
- 关键词:走进搜索引擎,进入Google第一页。呵呵
- 2010-8-1 18:53:59 回复该留言 删除留言
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





