robots.txt对于任何一个做网站的人应该都不陌生,它只是一个纯文本文件,但是却可以限制搜索引擎蜘蛛对网站的爬行,下面具体介绍一下robots.txt。
robots.txt简介
robots.txt位于网站的根目录下,当spider访问一个网站(例:http://www.yiisu.com)时候,首先会检查该网站中是否存在http://www.yiisu/robots.txt这个文件,如果存在就会遵循robots.txt的规则去爬行网站。
robots.txt写法
注:robots.txt区分大小写,如php.html和PHP.html会被识别为不同的文件,书写robots.txt时所有字符均为英文半角。
1、例子
User-agent: Baiduspider
Disallow: /
这是拒绝百度蜘蛛访问的写法。
2、User-agent
User-agent表示搜索引擎robot的名字,书写robots.txt必须有User-agent
User-agent:*
表示所有的robot
User-agent:Baiduapider
表示百度spider
3、Disallow
Disallow表示不允许访问
Disallow:
不允许访问为空,表示允许访问任何目录
Disallow: /
表示不允许访问任何目录,注:在/前有一个空格
4、Allow
Allow表示允许访问,意思和用法与Disallow相反,在此不再过多叙述。
具体用法举例
1、允许所有蜘蛛访问所有目录
User-Agent: *
Allow: /
2、禁止所有蜘蛛访问
User-Agent: *
Disallow: /
3、允许所有蜘蛛访问某个目录
User-Agent: *
Allow: /php/
4、禁止蜘蛛访问某几个目录
User-Agent: *
Disallow: /php/
Disallow: /java/
5、禁止蜘蛛访问动态页面
User-Agent: *
Disallow: /*?*