说明:
robots.txt(统一小写)是一种存放于网站根目录下的文本文件(ASCII编码),告诉网络搜索引擎的爬虫,哪些内容可以访问,哪些内容禁止访问。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
在站点的根目录下新建一个robots.txt文本文件。当搜索蜘蛛访问这个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索蜘蛛就会先读取这个文件的内容:
文件写法
# 允许特定的机器人:(name_spider用真实名字代替)
User-agent: name_spider
Allow:
# 拦截所有爬虫访问所有页面
User-agent: *
Disallow: /
# 禁止所有爬虫访问特定目录:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
# 禁止坏爬虫访问特定目录
User-agent: BadBot
Disallow: /private/
# 禁止所有爬虫访问特定文件类型
User-agent: *
Disallow: /*.php$
Disallow: /*.js$
下面列出来的是比较出名的搜索引擎蜘蛛名称:
Google的蜘蛛: Googlebot
百度的蜘蛛:baiduspider
Yahoo的蜘蛛:Yahoo Slurp
MSN的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)
Alltheweb的蜘蛛: FAST-WebCrawler/
INKTOMI的蜘蛛: Slurp