搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
花生_TL007
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
新书周榜:机器学习、Python、Linux成为最闪亮的星_linux设备驱动开发 刘寿永
2
《ChatGPT原理与架构:大模型的预训练、迁移和中间件编程 》
3
Azure系列2.1.11 —— CloudBlobContainer
4
3.15国际消费者权益日:消费者隐私威胁与保护
5
获取docker镜像内文件_docker镜像提取文件
6
浅谈集群和分布式的区别和联系_做了分布式部署还有必要做集群吗?
7
MAC(适用于M1,M2芯片)下载Java8(官方 ARM64 JDK1.8)安装、配置环境,支持动态切换JDK_mac jdk1.8下载
8
org/apache/commons/logging/LogFactory
9
常见软件发布版本编号解释
10
模拟电子技术------半导体_为什么 电子漂移运动是不利现象
当前位置:
article
> 正文
robots.txt的语法和写法详解_站点地图的robots怎么写
作者:花生_TL007 | 2024-03-21 17:02:49
赞
踩
站点地图的robots怎么写
robots.txt是一个纯文本文件,是搜索引擎蜘蛛爬行网站的时候要访问的第一个文件,当蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围,相当于网站与搜索引蜘蛛遵循协议,如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被屏蔽的网页,作为站长,我们就可以通过robots.txt文件屏蔽掉错误的页面和一些不想让蜘蛛爬取和收录的页面,那么robots.txt该怎么样写呢?
robots的语法:
1、User-agent 定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那么就是User-agent: Baiduspider;定义google,User-agent: Googlebot。
2、Disallow 禁止爬取。如,我想禁止爬取我的admin文件夹,那就是Disallow: /admin/。禁止爬取admin文件夹下的login.html,
Disallow: /admin/login.html。
3、Allow 允许。我们都知道,在默认情况下,都是允许的。那为什么还要允许这个语法呢?举个例子:我想禁止admin文件夹下的所有文件,除了.html的网页,那怎么写呢?我们知道可以用Disallow一个一个禁止,但那样太费时间很精力了。这时候运用Allow就解决了复杂的问题,就这样写:
Allow: /admin/.html$
Disallow: /admin/。
4、$ 结束符。例:Disallow: .php$ 这句话的意思是,屏蔽所有的以.php结尾的文件,不管前面有多长的URL,如abc/aa/bb//index.php也是屏蔽的。
5、* 通配符符号0或多个任意字符。例:Disallow: *?* 这里的意思是屏蔽所有带“?”文件,也是屏蔽所有的动态URL。
robots.txt文件写法举例说明
禁止Google/百度等所有搜索引擎访问整个网站
User-agent: *
Disallow: /
允许所有的搜索引擎spider访问整个网站(Disallow:可以用Allow: /替代)
User-agent: *
Disallow:
禁止Baiduspider访问您的网站,Google等其他搜索引擎不阻止
User-agent: Baiduspider
Disallow: /
只允许Google spider: Googlebot访问您的网站,禁止百度等其他搜索引擎
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止搜索引擎蜘蛛spider访问指定目录
(spider不访问这几个目录。每个目录要分开声明,不能合在一起)
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /~jjjj/
禁止搜索引擎spider访问指定目录,但允许访问该指定目录的某个子目录
User-agent: *
Allow: /admin/far
Disallow: /admin/
使用通配符星号"*"设置禁止访问的url
(禁止所有搜索引擎抓取/cgi-bin/目录下的所有以".html"格式的网页(包含子目录))
User-agent: *
Disallow: /cgi-bin/*.html
使用美元符号"$"设置禁止访问某一后缀的文件
(只允许访问以".html"格式的网页文件。)
User-agent: *
Allow: .html$
Disallow: /
阻止google、百度等所有搜索引擎访问网站中所有带有?的动态网址页面
User-agent: *
Disallow: /*?*
阻止Google spider:Googlebot访问网站上某种格式的图片
(禁止访问.jpg 格式的图片)
User-agent: Googlebot
Disallow: .jpg$
只允许Google spider:Googlebot抓取网页和.gif格式图片
(Googlebot只能抓取gif格式的图片和网页,其他格式的图片被禁止;
其他搜索引擎未设置)
User-agent: Googlebot
Allow: .gif$
Disallow: .jpg$
.......
只禁止Google spider:Googlebot抓取.jpg格式图片
(其他搜索引擎和其他格式图片没有禁止)
User-agent: Googlebot
Disallow: .jpg$
声明网站地图sitemap
这个告诉搜索引擎你的sitemap在哪,如:
Sitemap: http://www.AAAA.com/sitemap.xml
Google和百度对robots.txt文件的介绍: Google robotstxt,百度 robots.txt。
PS:
国内的搜索引擎蜘蛛
百度蜘蛛:baiduspider
搜狗蜘蛛:sogou spider
有道蜘蛛:YodaoBot和OutfoxBot
搜搜蜘蛛: Sosospider
国外的搜索引擎蜘蛛
google蜘蛛: googlebot
yahoo蜘蛛:Yahoo! Slurp
alexa蜘蛛:ia_archiver
bing蜘蛛(MSN):msnbot
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/花生_TL007/article/detail/282104
推荐阅读
article
配置
搜索引擎
访问
的
内容
robots
.
txt
_
get
/
robots
.
txt
...
一、
robots
.
txt
是什么?
robots
.
txt
是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引...
赞
踩
article
【攻防世界WEB】难度一星3分入门题:
get
、
post
、
robots
、、
cookie
、
button
、...
【view_source、
get
_
post
、
robots
、backup、
cookie
、disabled_
button
、w...
赞
踩
article
防止
抓取
html
代码,
robots
.
txt
只允许
抓取
html
页面
,防止
抓取
垃圾信息!...
今天我们代代SEO为大家详细的讲解下“
robots
.
txt
只允许
抓取
html
页面
,防止
抓取
垃圾信息!”代代SEO在做网站...
赞
踩
article
robots
.
txt
文件
是
什么? 如何获取...
1.
robots
.
txt
基本介绍
robots
.
txt
是
一个纯文本
文件
,在这个
文件
中网站管理者可以声明该网站中不想被rob...
赞
踩
article
HTTP
权威指南 -
robots
.
txt
文件
_
http
_
robots
.
txt
_
访问
...
机器人社团能够理解机器人
访问
Web站点时可能引发的问题。1994年, 人们提出了一项简单的自愿约束技术, 可以将机器人阻...
赞
踩
article
robots
.
txt
协议
---
Robots
.
txt
规范...
Robots
.
txt
规范摘要本文档详细介绍了 Google 处理
robots
.
txt
文件的方式,这种文件让您可以控...
赞
踩
article
[
python
爬虫]--
robots
.
txt
机器人协议(
urllib
.
robotparser
库)_g...
from
urllib
.
robotparser
import *# 获取
robots
协议内容def
get
_
robots
...
赞
踩
article
robots
.
txt
怎么
设置
_
robots
.
txt
设置
...
需要注意的是,
robots
.
txt
文件并不是强制性的,搜索引擎机器人可能会忽略它。此外,
robots
.
txt
文件只...
赞
踩
article
明星不是梦#利用
Python
进行
网站
日志分析_get /
robots
.
txt
http
/
1.1
" 4...
网站
的访问日志是一个非常重要的文件,通过分析访问日志,能够挖掘出很多有价值的信息。本文介绍如何利用
Python
对一个真实...
赞
踩
article
[
CTF
/
网络安全
] 攻防世界
robots
解题详析
_
ctf
robots
...
[
CTF
/
网络安全
] 攻防世界
robots
解题详析
_
ctf
robots
ctf
robots
...
赞
踩
article
sogou
spider
抓取网站
robots
.
txt
400问题?_get /
robots
.
txt
...
首先,我要说,网站正常访问是没问题的。而且,百度,360
spider
都访问ok。但
sogou
站长工具测试没问题,后台日...
赞
踩
article
阻止网络机器人爬取网站内容_
get
//
robots
.
txt
/1.php
http
/
1.1
...
周末大清早收到封警报邮件,估计网站被攻击了,要么就是缓存日志memory的问题。打开access.log 看了一眼,原来...
赞
踩
article
robots
.
txt
的
用法
seo
站点地图_
seo
的
robots
可以
放几个
网站
地图...
robots
.
txt
的
用法
seo
站点地图_
seo
的
robots
可以
放几个
网站
地图
seo
的
robots
可以
放几个
网站
地图...
赞
踩
article
robots
.
txt
文件
详解_
robots
格式
...
robots
.
txt
robots
.
txt
写法
robots
.
txt
是一个协议,而不是一个命令。
robots
.
txt
是...
赞
踩
article
robots
.
txt
写法
大全和
robots
.
txt
语法的作用_
robots
.
txt
allow
:
/...
1、如果允许所有搜索引擎访问网站的所有部分,可以建立一个空白的文本文档,命名为
robots
.
txt
放在网站的根目录下即可...
赞
踩
article
robots
.
txt
的
作用是什么
,
看完了我默默加在了自己
网站
上...
以上就是本篇所讲解
的
内容
,
为你
的
网站
加上
robots
.
txt
吧
,
后面会分享更多有深度
的
相关内容
,
记得先点个关注不迷路。_...
赞
踩
article
robots
.
txt
详解_
chinadaily
的
robots
.
txt
...
怎样查看
robots
文件?浏览器输入 主域名/
robots
.
txt
robots
.
txt
的
作用
robots
.
txt
文件规...
赞
踩
article
Robots
.
txt
完整
使用
指南_
robots
.
txt
使用
方法...
Robots
.
txt
是一个小文本文件,位于网站的根目录中。它告诉抓取工具是否要抓取网站的某些部分。该文件
使用
简单的语法,...
赞
踩
article
robots
.
txt
文本文件...
Robots.
txt
的定义:Robots.
txt
是一个纯文本文件,用于声明该网站中不想被Robots访问的部分,或者指定...
赞
踩
article
robots
.
txt
文件...
1. 什么是
robots
.
txt
文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取...
赞
踩
相关标签
搜索引擎
百度
爬虫
web安全
防止抓取html代码
php
数据库
robots协议
python
安全
CTF
网络安全
block bot
网络爬虫
服务器
url
脚本
yahoo
google