搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Cpp五条
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【零知ESP8266教程】快速入门13 - 1位数码管显示_esp8266 数码管
2
【OpenGL手册13】 光照贴图
3
Go语言入门到实战——06.Go语言里的数组和切片_對數組進行切片go
4
年度总结 | 2020年度有孚网络获誉总览_pdf有孚网络研究报告
5
Angalur 框架 文本域textarea 绑定input事件 内容汉字不能触发事件 问题分析与解决_textarea事件
6
麒麟系统设置本地yum源_麒麟修改yum源
7
windows系统安装资料汇总_windows server 2003 r2, standard x64 edition with
8
RuntimeError: CUDA out of memory. Tried to allocate 模型训练 GPU 显存不够报错总结_训练ai遇到cuda内存不足
9
Dev c++工具将C代码生成dll文件以及如何调用dll文件_dev c++ dll
10
stm32cubemx生成不了keil工程文件_STM32CubeMX + STM32F1系列开发时遇到的四个问题及解决方案分享...
当前位置:
article
> 正文
robot.txt的写法详解
作者:Cpp五条 | 2024-03-21 16:58:59
赞
踩
st robot格式
其实robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。
那么robots.txt语法到底有哪些呢?
robots.txt语法有三个语法和两个通配符。
三个语法:
1.首先要定义网站被访问的搜索引擎是那些。
User-agent:(定义搜索引擎)
语法:User-agent: * 或 搜索引擎的蜘蛛名称
例子:User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)
User-agent:*(定义所有搜索引擎)
2:屏蔽搜索引擎爬去语法
Disallow:(禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。
写法:DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录)
或 DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)
例如
isallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)
Disallow:/help.html (禁止蜘蛛爬去help.html页面)
整套语法示范:
User-agent: *
Disallow:/目录1/ (禁止所有搜索引擎的蜘蛛爬取站点的目录1)
Disallow:/目录2/ (禁止所有搜索引擎的蜘蛛爬取站点的目录2)
3:允许搜索引擎爬去语法
Allow:(允许语法) 用来定义允许蜘蛛爬取的页面或子目录
例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面)
两个通配符:
匹配符”$”和 “*”
$ 通配符:匹配URL结尾的字符; * 通配符:匹配0个或多个任意字符;
例子1:
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下:
User-agent: *
Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)
例2:
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下:
User-agent: *
Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)
以上是西西对于robots写法(语法)的领悟,分享给大家,如果大家有什么不懂的可以联系西西qq或者email。为了让大家巩固下robots.txt语法知识,下篇文章西西给大家写robots.txt综合列子,尽情期待。
本文发自
站长百科
: http://www.software8.co 收藏分享
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Cpp五条/article/detail/282089
推荐阅读
article
Flutter
不用
Scaffold
.of(
context
)来显示
SnackBar
,直接用Globa...
由于
Flutter
的
SnackBar
必须依赖于
Scaffold
.of(
context
),而要访问正确的
context
,必...
赞
踩
article
这几款
图片
格式
转
换
器帮助你轻松解决
图片
转
换
难题_相机拍的照片
转
格式
...
最近夏天又到了,相信很多小伙伴都想去海边吹吹海风、踩踩沙滩了吧?我已经去过了并且带上了相机,拍了很多好看的照片,但大部分...
赞
踩
article
纯
前端
使用
ffmpeg
实现
视频压缩
_
ffmpeg
.
min
.
js
...
视频压缩
,
ffmpeg
,纯
前端
,JavaScript_
ffmpeg
.
min
.
js
ffmpeg
.
min
.
js
...
赞
踩
article
postgresql
数据库
开启远程访问(FATAL: no pg_
hba
.
conf
entry
fo...
docker
安装
postgresql
,开启远程访问
postgresql
数据库
开启远程访问1.
docker
安装
数据库
2....
赞
踩
article
开源
啦!!!基于
鸿蒙
ArkTS
封装的
图表
组件
《
McCharts
》,
大家
快来一起共创_
鸿蒙
图表
...
组件
目前的现状就到此讲解结束了,但是我们的故事还没结束。欢迎加入我们的共创,集思广益。也希望
大家
可以多点点小星星支持一下...
赞
踩
article
NLP
-
分词
、词性
标注
及命名实体识别(二):
TextRank
原理及应用_
关键词
textrank
专...
一、
TextRank
原理
TextRank
不需要大量
标注
样本,就可提取出文本相关词,其类似于PageRank思想,将文...
赞
踩
article
系统集成
项目管理
工程师
第三版
第二章要点笔记_
系统集成
项目管理
工程师
中级
第三版
...
一、信息系统服务业服务业的发展:所有以满足企业和机构的业务发展所带来的信息化需求为目的,基于信息技术和信息化理念而提供的...
赞
踩
article
ROBOTS
协议
...
1、Robots
协议
Robots
协议
的全称即网络爬虫排除标准”(Robots Exclusion Protocol...
赞
踩
article
如何
修改
flutter
项目
中的
minSdkVersion
...
对于
minSdkVersion
,相信大家都很熟悉。对于如何
修改
它,如果是android
项目
,众所周知是在app级别的b...
赞
踩
article
Linux
安装
JDK
详细
教程
(附图)...
这里介绍两种方式:yum
安装
方式和手动
安装
。_linux
安装
jdklinux
安装
jdk ...
赞
踩
article
大爆料!
Github
上
100%
好评的
Java
多
线程
池面试题,确实牛!_
java
线程
池
github
...
一、性能调优影响MySQLServer 性能的相关因素1、商业需求对性能的影响2、系统架构及实现对性能的影响3、Quer...
赞
踩
article
C++
调用
WINDOWS
图片和传真
查看器
打开图片
_
photosservice
.
exe
...
CString sPicturePath = "C:\Users\Public\Pictures\Sample Pict...
赞
踩
article
华为
HCIA
无线
题库(
H12
-811)...
WLAN应用中,每台AC都需要唯一指定AC的源IP地址,使得该AC设备下挂接的所有AP学到的AC地址都是指定的AC源接口...
赞
踩
article
Nvidia
Jetson
Nano 安装Qt5_
jetson
nano
安装qt...
打开终端,输入如下命令:sudo apt-get install qt5-default qtcreator -yreb...
赞
踩
article
Linux
部署
项目...
1.负载均衡:流量分摊2.反向代理:处理外网访问内网问题3.动静分离:判断动态请求还是静态请求,选择性的访问指定服务器。...
赞
踩
article
Chrome
浏览器
扩展
开发
之
自动化
操作页面_通过
chrome
自动化
操作...
Chrome
浏览器
扩展
开发
之
自动化
操作页面b/s
开发
javascripthtml5htmlcssjquery
chrome
...
赞
踩
article
Windows
下
批量
重命名
文件
【
bat
实现】_
bat
批量
重命名
文件
ren
...
在实际应用中,我们经常会遇到将指定
文件
夹下的
文件
重命名
,以便程序读写。本文介绍了两种方式,都是在
Windows
系统中自带...
赞
踩
article
MFC 用
ShellExecute
打开
外部
文件
...
知识点: 获取CListCtrl选中文本 用
ShellExecute
打开
外部
文件
一、CListCtrl::GetFir...
赞
踩
article
一句命令解决
huggingface
.
co
无法
下载
模型
问题
_
hf
_
endpoint
...
血来潮从github上
下载
的
模型
,在运行demo点批发的时候,发现大
模型
并不能直接从
huggingface
上直接
下载
,这...
赞
踩
article
【
Java
中
HashMap
底层
实现
原理
】_
javahashmap
底层
实现
原理
...
本文简单介绍了hashmap的扩容机制,此处是学习java基础部分的重难点之一,学完之后要记得及时巩固,以免遗忘,在今后...
赞
踩
相关标签
科技
ffmpeg
前端
javascript
视频编解码
postgresql
数据库
database
harmonyos
华为
项目管理
flutter
java
linux
多线程
线程池
面试
程序员
jetson nano
Qt5
运维
服务器