robot.txt的写法详解

作者：Cpp五条 | 2024-03-21 16:58:59

踩

st robot格式

其实robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。
那么robots.txt语法到底有哪些呢？
robots.txt语法有三个语法和两个通配符。
三个语法：
1.首先要定义网站被访问的搜索引擎是那些。
User-agent：（定义搜索引擎）
语法：User-agent: * 或搜索引擎的蜘蛛名称
例子：User-agent：Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）
User-agent：Baiduspider （定义百度，只允许百度蜘蛛爬取）
User-agent：*（定义所有搜索引擎）
2：屏蔽搜索引擎爬去语法
Disallow:（禁止语法）用来定义禁止蜘蛛爬取的页面或目录。
写法：DisAllow:/文件夹目录/ （表示禁止蜘蛛爬取网站的其中一个目录）
或 DisAllow:/文件名称（表示禁止蜘蛛爬取网站的其中一个页面）
例如

isallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)
Disallow:/help.html (禁止蜘蛛爬去help.html页面)
整套语法示范:
User-agent: *
Disallow:/目录1/ （禁止所有搜索引擎的蜘蛛爬取站点的目录1）
Disallow:/目录2/ （禁止所有搜索引擎的蜘蛛爬取站点的目录2）
3：允许搜索引擎爬去语法
Allow:（允许语法）用来定义允许蜘蛛爬取的页面或子目录
例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Allow:/admin/abc.html(“/” 表示根目录下，允许蜘蛛爬去admin目录中的abc.html页面）
两个通配符：
匹配符”$”和 “*”
$ 通配符：匹配URL结尾的字符； * 通配符：匹配0个或多个任意字符；
例子1：
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址，代码如下:
User-agent: *
Allow: .htm$ 说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件，注意，这里并不包括以”.html”为后缀的文件)
例2：
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，代码如下:
User-agent: *
Disallow: /*.htm 说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件，注意，这里并不包括以”.html”为后缀的文件)
以上是西西对于robots写法（语法）的领悟，分享给大家，如果大家有什么不懂的可以联系西西qq或者email。为了让大家巩固下robots.txt语法知识，下篇文章西西给大家写robots.txt综合列子，尽情期待。
本文发自站长百科： http://www.software8.co 收藏分享

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/282089