赞
踩
Robots协议的全称即网络爬虫排除标准”(Robots Exclusion Protocol),,网站通过Robots协议告诉搜索引擎(或者网络蜘蛛)可以抓取的页面范围。
robots.txts是一个文本文件,是一个协议,而并非一个命令,其放置在网站的根目录下。robots.txt文件是搜索引擎访问网站时查看的第一个文件,若站点存在robots.txt文件,搜索引擎根据该文件中的内容访问确定的范围;若该文件不存在,则搜索引擎可以访问所有没有被保护的界面。
以某站点为例,其robots.txt文件如图所示:
1、设置网络爬虫访问权限,以保护网站;
2、控制搜索引擎的搜索范围,集中权值到主要界面,而无用界面对于搜索引擎优化而言作用不大;
3、网站内容为个人所有,其意愿应被搜索引擎所尊重,robots协议给了网站所有者表达自己意愿的机会;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。