当前位置:   article > 正文

robots.txt文本文件

robots.txt文本文件

Robots.txt的定义:

Robots.txt是一个纯文本文件,用于声明该网站中不想被Robots访问的部分,或者指定搜索引擎蜘蛛只抓取指定的内容。

Robots.txt不是规定,而是约定俗成需要搜索引擎蜘蛛自觉遵守的一种道德习俗。

当搜索引擎蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt

  • 如果找到,搜索引擎蜘蛛就会按照该文件中的内容来确定抓取的范围。
  • 如果该文件不存在,那么搜索引擎机器人就沿着链接抓取。

 

Robots.txt的作用:

作用一:

防止私密或重要内容被搜索引擎抓取。

例:网站的在线留言信息、email信息、网站后台等私密内容被搜索引擎蜘蛛访问抓取可能给你企业带来灾难性的损失,Robots.txt可以限制搜索引擎抓取重要内容避免以上情况发生。

       大型网站特别注意,小型网站也要注意保密工作。

作用二:

节省服务器资源,从而提高服务质量。

例:搜索引擎蜘蛛爬行次数过多会造成服务器资源大量损耗,不仅浪费流量还可能降低用户体验,通过Robots.txt可以控制搜索引擎蜘蛛爬行时间间隔等避免以上情况发生。

      一般大型网站可能会面临这种问题。

作用三:

减少重复抓取,提高网站质量。

例:网站内可能存在内容相似甚至相同的页面,用Robots.txt限制搜索引擎抓取,可以避免搜索引擎认为网站内存在大量重复性页面从而降低整个网站权重的做法。

作用四:

指定sitemap文件位置。

例:Robots.txt可以指定sitemap的位置,方便搜索引擎的爬行,从而实现站内页面的收录更友好。

 

Robots.txt语法:

基本语法:

内容的基本格式:   键:值对

  1. User-agent键:值(对应各个搜索引擎爬行器的名称)
  2. Disallow键:值(该键用来说明禁止搜索引擎蜘蛛爬取的路径)
  3. Allow键:值(该键说明允许搜索引擎蜘蛛爬行的路径)

注:在robots.txt中,键后面加:号,后面必有一个空格,和值区分开。

语法讲解一:

例:user-agent:*

这里的*代表所有搜索引擎的种类,*是通配符。

可用蜘蛛名称代替*表示特指某个蜘蛛。

例:user-agent:baiduspider

语法讲解二:

  1. Allow:/cgi-bin/
  2. 这里定义是允许访问cgi-bin目录
  3. Allow:*.htm$

仅允许访问以“.htm”为后缀的URL

$指的是匹配行结束符

*指的是匹配任何字符

注:一般情况是allow配合disallow使用,因为不限制的目录默认为是可以抓取的。

 

常见搜索引擎蜘蛛:

  名称         常用搜索引擎网址

Baiduspider www.baidu.com

Googlebot www.google.com

Sogouspider www.sogou.com

360spider www.haosou.com

Slurp www.yahoo.com

Sosospider www.soso.com

La_archiver www.alexa.com

Bingbot cn.bing.com

Youdaobot www.youdao.com

Jikespider www.jike.com

 

语法示例一:

禁止所有搜索引擎访问网站的cgi-bin、tmp目录,禁止访问private目录以及其子目录。

User-agent:*

Disallow:/cgi-bin/

Disallow:/temp/

Disallow:/private

语法示例二:

禁止baiduspider访问网站的catalogs目录及其子目录(除about子目录外),禁止baiduspider访问网站的pagead目录。

该文件中的记录通常以一行或者多行user-agent(用户代理)开始,后面加上disallow和allow等。

User-agent:baiduspider

Allow:/catalogs/about

Disallow:/catalogs

Disallow:/pagead/

 

robots.txt的用法:

用法:robots.txt必须放置在一个在一个站点的根目录下,而且文件名必须全部小写。

例:http://www.myweb.com/

       http://www.myweb.com/robots.txt

      其中robots.txt不能被写成Robots.txt,必须全部小写。

注:应该写成robots.txt

 

用法:sitemap:http://www.google.com/sitemap.xml

Sitemap:URL全称(包含http://部分)

告诉搜索引擎蜘蛛这个页面是网站地图。

 

常见错误:

  1. 顺序颠倒。
  2. 多个禁止命令放在一行中的错误
  3. 行前有大量空格的错误
  4. 不允许访问,忘记斜杠。

 

robots meta标签:

问: 如果搜索引擎已经收录网页,而这个网页是我们不想让搜索引擎收录的页面,应该做?

答:robots.txt不能删除搜索引擎中已收录的页面。robots meta标签可以解决这个问题。

问:考虑下robots.txt不太擅长管理什么样的页面?

答:robots.txt不太擅长管理单个页面. robots.txt的禁止抓取设定是基于目录或者某一类网页的,robots.txt不善于管理单个页面。会暴露重要页面地址,存在安全隐患。

 

robots meta标签介绍:

定义:

主要针对某个具体页面,robots meta标签是放在页面中,专门用来告诉搜索引擎蜘蛛如何抓取该页的内容。

例:<meta name=”robots” content=”index,follow”>

 

robots meta的语法:

1. robots meta标签中

name=”robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”baiduspider”

content部分有四个指令选项:index,noindex,follow,mofollow指令间以“,”英文逗号分隔(大小写无要求,但建议小写)

2.Index指令告诉搜索机器人可以抓取该页面。

Follow指令表示搜索机器人可以爬行该页面上的链接继续爬下去。

共有4种组合:

<meta name=”robots” content=”index,follow”>

<meta name=”robots” content=”noindex,follow”>

<meta name=”robots” content=”index,noindex”>

<meta name=”robots” content=”noindex,noindex”>

 

Robots meta注意事项:

特殊写法:<meta name=”robots” content=”intex,follow”>

可以写成<meta name=”robots” content=”all”>

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/282065
推荐阅读
相关标签
  

闽ICP备14008679号