赞
踩
Robots.txt是一个纯文本文件,用于声明该网站中不想被Robots访问的部分,或者指定搜索引擎蜘蛛只抓取指定的内容。
Robots.txt不是规定,而是约定俗成需要搜索引擎蜘蛛自觉遵守的一种道德习俗。
当搜索引擎蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt
作用一:
防止私密或重要内容被搜索引擎抓取。
例:网站的在线留言信息、email信息、网站后台等私密内容被搜索引擎蜘蛛访问抓取可能给你企业带来灾难性的损失,Robots.txt可以限制搜索引擎抓取重要内容避免以上情况发生。
大型网站特别注意,小型网站也要注意保密工作。
作用二:
节省服务器资源,从而提高服务质量。
例:搜索引擎蜘蛛爬行次数过多会造成服务器资源大量损耗,不仅浪费流量还可能降低用户体验,通过Robots.txt可以控制搜索引擎蜘蛛爬行时间间隔等避免以上情况发生。
一般大型网站可能会面临这种问题。
作用三:
减少重复抓取,提高网站质量。
例:网站内可能存在内容相似甚至相同的页面,用Robots.txt限制搜索引擎抓取,可以避免搜索引擎认为网站内存在大量重复性页面从而降低整个网站权重的做法。
作用四:
指定sitemap文件位置。
例:Robots.txt可以指定sitemap的位置,方便搜索引擎的爬行,从而实现站内页面的收录更友好。
基本语法:
内容的基本格式: 键:值对
注:在robots.txt中,键后面加:号,后面必有一个空格,和值区分开。
语法讲解一:
例:user-agent:*
这里的*代表所有搜索引擎的种类,*是通配符。
可用蜘蛛名称代替*表示特指某个蜘蛛。
例:user-agent:baiduspider
语法讲解二:
仅允许访问以“.htm”为后缀的URL
$指的是匹配行结束符
*指的是匹配任何字符
注:一般情况是allow配合disallow使用,因为不限制的目录默认为是可以抓取的。
常见搜索引擎蜘蛛:
名称 常用搜索引擎网址
Baiduspider www.baidu.com
Googlebot www.google.com
Sogouspider www.sogou.com
360spider www.haosou.com
Slurp www.yahoo.com
Sosospider www.soso.com
La_archiver www.alexa.com
Bingbot cn.bing.com
Youdaobot www.youdao.com
Jikespider www.jike.com
语法示例一:
禁止所有搜索引擎访问网站的cgi-bin、tmp目录,禁止访问private目录以及其子目录。
User-agent:*
Disallow:/cgi-bin/
Disallow:/temp/
Disallow:/private
语法示例二:
禁止baiduspider访问网站的catalogs目录及其子目录(除about子目录外),禁止baiduspider访问网站的pagead目录。
该文件中的记录通常以一行或者多行user-agent(用户代理)开始,后面加上disallow和allow等。
User-agent:baiduspider
Allow:/catalogs/about
Disallow:/catalogs
Disallow:/pagead/
用法:robots.txt必须放置在一个在一个站点的根目录下,而且文件名必须全部小写。
例:http://www.myweb.com/
http://www.myweb.com/robots.txt
其中robots.txt不能被写成Robots.txt,必须全部小写。
注:应该写成robots.txt
用法:sitemap:http://www.google.com/sitemap.xml
Sitemap:URL全称(包含http://部分)
告诉搜索引擎蜘蛛这个页面是网站地图。
常见错误:
问: 如果搜索引擎已经收录网页,而这个网页是我们不想让搜索引擎收录的页面,应该做?
答:robots.txt不能删除搜索引擎中已收录的页面。robots meta标签可以解决这个问题。
问:考虑下robots.txt不太擅长管理什么样的页面?
答:robots.txt不太擅长管理单个页面. robots.txt的禁止抓取设定是基于目录或者某一类网页的,robots.txt不善于管理单个页面。会暴露重要页面地址,存在安全隐患。
robots meta标签介绍:
定义:
主要针对某个具体页面,robots meta标签是放在页面中,专门用来告诉搜索引擎蜘蛛如何抓取该页的内容。
例:<meta name=”robots” content=”index,follow”>
1. robots meta标签中
name=”robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”baiduspider”
content部分有四个指令选项:index,noindex,follow,mofollow指令间以“,”英文逗号分隔(大小写无要求,但建议小写)
2.Index指令告诉搜索机器人可以抓取该页面。
Follow指令表示搜索机器人可以爬行该页面上的链接继续爬下去。
共有4种组合:
<meta name=”robots” content=”index,follow”>
<meta name=”robots” content=”noindex,follow”>
<meta name=”robots” content=”index,noindex”>
<meta name=”robots” content=”noindex,noindex”>
Robots meta注意事项:
特殊写法:<meta name=”robots” content=”intex,follow”>
可以写成<meta name=”robots” content=”all”>
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。