网站建设中robots文件的编写方式说明

文章来源：廊坊网络公司 | 本文作者：小编 | 发布时间：2016-11-16 13:21:33 | Tag标签：网站建设知识

16 2016

Robots.txt文件是网站与搜索引擎之间的一种协议，当搜索引擎来抓取你网站的时候，首先会看你网站根目录的Robots文件，搜索引擎会根据你写的这个协议来抓取你的网站内容，当然抓取的页面都是由你写的Robots来确定的。搜索引擎使用spider程序来访问网站里面的内容，但是你的Robots文件可以告诉它那个页面可以访问，那个页面不可以访问，有些人认为网站当然容许抓取访问了，错，一些网站后台隐私文件、js、死链这些都是需要屏蔽的。

了解下Robots常见的规则：

1、User-agent指令: 此指令定义了此指令下面的内容对哪些蜘蛛有效。默认所有蜘蛛都允许抓取，如果此指令指定了特定的蜘蛛，那么此指令下跟的内容就对特定蜘蛛有效。

2、Disallow指令：指禁止搜索引擎抓取的路径，也就是说此指令定义了禁止蜘蛛抓取哪些内容

3、Allow指令: 允许搜索引擎收录的地址，此指令定义了允许蜘蛛抓些哪些内容，如果是某些内容允许，其它全部拒绝，则可以用这个指令，大多数网站只用到禁止指令。

User-agent的用法示例

此指令是用来定义蜘蛛名的：常见的蜘蛛名包括：Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。

Disallow的用法示例

1、禁止整站被抓取：

Disallow: /

2、禁止根目录下的woniuseo目录抓取：

Disallow: /woniuseo/

3、禁止根目录下的woniuseo目录下的单个页面woniuseo.html被抓取：

Disallow：/woniuseo/woniuseo.html

4、禁止全站含有？的页面被抓取：

Disallow: /*？*

5、禁止全站含有woniuseo的页面被抓取：

Disallow: /*woniuseo*

6、禁止全站后缀为.aspx的页面被抓取：

Disallow: /*.aspx$

7、禁止全站后缀为.jpg的文件被抓取：

Disallow:/*.jpb$

Allow的用法示例

1、允许所有页面被抓取：

Allow: /

2、允许woniuseo的目录被抓取：

Allow: /woniuseo/

3、允许抓取.html的页面：

Allow: /*.html$

4、允许抓取.jpg的图片：

Allow: /*.jpg$

上一篇：网站中图片有没有必要加水印呢

下一篇：网站优化靠的不是技术而是决策

返回列表