使用robots.txt禁止搜索引擎爬虫访问网站！

说明：

robots.txt（统一小写）是一种存放于网站根目录下的文本文件(ASCII编码)，告诉网络搜索引擎的爬虫，哪些内容可以访问，哪些内容禁止访问。

robots.txt协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

在站点的根目录下新建一个robots.txt文本文件。当搜索蜘蛛访问这个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索蜘蛛就会先读取这个文件的内容:

文件写法

 # 允许特定的机器人：（name_spider用真实名字代替）
 User-agent: name_spider
 Allow:
 
 # 拦截所有爬虫访问所有页面
 User-agent: *
 Disallow: /
 
 # 禁止所有爬虫访问特定目录：
 User-agent: *
 Disallow: /cgi-bin/
 Disallow: /images/
 
 # 禁止坏爬虫访问特定目录
 User-agent: BadBot
 Disallow: /private/
 
 # 禁止所有爬虫访问特定文件类型
 User-agent: *
 Disallow: /*.php$
 Disallow: /*.js$

下面列出来的是比较出名的搜索引擎蜘蛛名称：

 Google的蜘蛛： Googlebot
 
 百度的蜘蛛：baiduspider
 
 Yahoo的蜘蛛：Yahoo Slurp
 
 MSN的蜘蛛：Msnbot
 
 Altavista的蜘蛛：Scooter
 
 Lycos的蜘蛛： Lycos_Spider_(T-Rex)
 
 Alltheweb的蜘蛛： FAST-WebCrawler/
 
 INKTOMI的蜘蛛： Slurp

SEO

使用robots.txt禁止搜索引擎爬虫访问网站！

说明：

搜索

最新文章

最新留言

标签列表

使用robots.txt禁止搜索引擎爬虫访问网站！

说明：

你可能感兴趣的

将WordPress外链转内链的修改方法，网站SEO优化必备！

搜索

最新文章

最新留言

标签列表