当前位置:   article > 正文

robots协议文件的几种写法及示例_robots写法大全

robots写法大全

robots协议是放在网站根目录下的文本文件,告诉搜索引擎哪些内容是否可以被爬取;
robots协议的作用:
   1)引导搜索引擎蜘蛛爬取指定栏目或内容;
   2)网站改版或者url优化重写时屏蔽对搜索引擎不友好的链接;
   3)屏蔽死链、404错误页面;
   4)屏蔽无意义无内容的页面;
   5)屏蔽重复页;
   6)屏蔽不想被收录的页面;
   7)引导蜘蛛抓取网站地图;
   8)屏蔽网站中较大的文件,图片视频等节约宽带提升速度;

语法及通配符:
   1)User-agent: 定义搜索引擎;
   2)Disallow: 定义禁止蜘蛛爬取的页面或目录;
   3)Allow: 定义允许蜘蛛爬取的页面或目录;
   4)$ 匹配url结尾的字符;
   5)* 匹配0个或多个任意字符;

文件写法:
   1)User-agent: * 这里的代表所有的搜索引擎种类;(谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp)

   2)Disallow: /admin/ 禁止爬取admin目录下面的所有目录;

   3)Disallow: /admin 禁止爬取/admin.html、/adminset.html、/admin/abc.html;

   4)Disallow: /admin/
.html 禁止爬取admin目录下的所有以html为后缀的文件(包括子目录);

   5)Disallow: /? 禁止爬取网站中所有包含问号的网址;

   6)Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片;

   7)Disallow: /ab/abc.html 禁止爬取ab文件下的abc.html文件;

   8)Allow: /abc/ 允许爬取abc目录下的所有目录;

   9)Allow: /tmp 允许爬取tmp目录;

   10)Allow: .html$ 允许爬取网页以html为后缀的url;

   11)Allow: .gif$ 允许抓取网页中gif格式的图片;

   12)Sitemap: 网站地图 告诉爬虫这个页面是网站地图;

示例:
1)User-agent: *
Disallow: /admin/
Disallow: /abc/
注:禁止所有的搜索引擎爬取admin和abc目录及子目录;

2)User-agent: *
Allow: /admin/seo/
Disallow: /admin/
注:禁止所有搜索引擎爬取admin目录及子目录,但可以爬取admin目录下的seo
目录;(Allow必须在前面,Disallow写在后)

3)User-agent: *
Disallow: /abc/.htm$
注:禁止所有搜索引擎爬取abc目录及子目录下以.htm为后缀的url;

4)User-agent: *
Disallow: /
?*
注:禁止所有搜索引擎爬取有?的页面;

5)User-agent:Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: /gif$
Disallow: /png$
Disallow: /.bmp$
注:禁止所有搜索引擎爬取所有图片;

6)User-agent: *
Disallow: /folder1/
User-agent: Mediapartners-Google
Allow: /folder1/
注:禁止所有搜索引擎爬取folder1,但 Mediapartners-Google 漫游器可以在页
面上显示 AdSense 广告;

7)User-agent: *
Disallow: /abc*/
注:禁止所有搜索引擎爬取以abc开头的所有目录及子目录;

其他属性:
1)指定robot协议版本号:
Robot-version: Version 2.0
2)在指定时间段搜索引擎才可以爬取指定url
Visit-time: 0100-1300 允许在凌晨1点到3点之间访问
3)限制url读取频率
Request-rate: 40/1m 0800-1300 在8点到13点之间以每分钟40次的频率访问
Robots meta标签:

   <meta name="Robots" content="all|none|index|noindex|follow|nofollow">
  • 1

属性说明:
1)all:文件将被检索,且页面上的链接可以被查询;默认为all;

2)none:文件不被检索,且页面上的链接也不可以被检索;

3)index:文件将被检索;

4)follow:页面上的链接可以被检索;

5)noindex:文件不被检索;

6)nofollow:页面上的链接不被检索;

组合运用:

	   1)可以抓取本页且可以顺着本页继续索引其他链接
	       <meta name="robots" content="index,follow">
	        也可以写成
	        <meta name="robots" content="all">
	        
	    2)不可以抓取本页但可以顺着本页继续索引其他链接
	      <meta name="robots" content="noindex,follow">
           
        3)可以抓取本页但不可以顺着本页继续索引其他链接
         <meta name="robots" content="index,nofollow">
            
        4)不可以抓取本页且不可以顺着本页继续索引其他链接
            <meta name="robots" content="noindex,nofollow">
            也可以写成
            <meta name="robots" content="none">
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/282079
推荐阅读
相关标签
  

闽ICP备14008679号