Robots协议时web站点和搜索引擎爬虫交互的一种方式,即将一个robots.txt的文件放在网站的根目录上

robots协议是网站与爬虫对话的平台。站长们可以建一个以.txt为扩展名的记事本文件,文件名为robots,在这个文件中,可以填写协议规则来告诉爬虫此网站的哪些页面是不允许抓取的,也可以阻止某些爬虫的抓取

robots协议通过User-agent和Disallow告知搜素引擎非公开目录和非公开网页。说明如下:
1) User-agent:*:表示对一切搜索引擎爬虫有效,如果特别针对某个爬虫,则可以写明。
2) Disallow:/2004/ontaria/basic:表示禁止抓取这个目录。

继续解释1)中,如果特别针对某个爬虫,比如你的网站想让谷歌抓取,则可以写User-agent:googlebot
我们可以随处引用一个站点来学习robots协议,比如www.baidu.com/robots.txt,打开后,我们可以找到百度填写的robots协议。如果当你在分析某个网站时,未能找到robots协议的话,证明该站点的根目录里未放有robots协议。此时爬虫会按照User-agent:*的指令来进行抓取,同时也可以说明该站并不重视与爬虫对话。

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/45.html