防止抓取html代码,robots.txt只允许抓取html页面，防止抓取垃圾信息！

作者：不正经 | 2024-03-21 16:41:44

踩

robots禁止抓取所有带有特定参数的页面

今天我们代代SEO为大家详细的讲解下“robots.txt只允许抓取html页面，防止抓取垃圾信息！”代代SEO在做网站这么多年中，经常会遇到客户的网站被挂马的情况，原因是自己维护网站不利，或者用的是市面上开源的CMS，直接下载源码安装使用，也不管里面有没有漏洞和后门，所以造成了，后期被挂马入侵，产生大量垃圾违法页面被百度抓取。

被挂马的一些人很奇怪，为什么自己的网站正常发布的内容不被收录，但是垃圾页面违法内容却被百度大量收录，其实很简单，哪些挂马人员直接在哪些违法页面上，挂了蜘蛛池，所以就会造成这个问题，就算我们尽管解决了网站被挂马的问题，网站上的垃圾页面，还是不断会被百度抓取，死链生效也是需要很长时间，这个时候怎么办那？我们可以使用robots.txt来解决这个问题。

实现原理：

我们可以使用robots.txt限制用户只能抓取HTMl页面文件，并且可以限制指定目录的HTML，和屏蔽指定目录的HTML文件，下面做一个robots.txt的写法，大家可以自己研究下，实际应用到自己的网站上面去。

可以解决的挂马形式：

这个robots编写规则，就是主要针对上传类的挂马，比如增加xxx.php?=dddd.html;xxxx.php;上传也不会被百度抓取，降低网监风险。

#适用于所有搜索引擎

User-agent:*

#允许首页根目录/和不带斜杠、例如www.daidaiseo.com/www.daidaiseo.com

Allow:/$

Allow:$

#文件属性设置为禁止修改(固定属性，入口只能是index.html/index.php)

Allow:/index.php

Allow:/index.html

#允许静态生成目录的抓取，此处是允许抓取页面中所有的html文件

Allow:/*.html$

#禁止所有带参数的html页面(禁止抓取挂马html页面)规则可以自己定义

Disallow:/*?*.html$

Disallow:/*=*.html$

#允许单一入口，只允许，带？号的index，其他的html，带符号，一律不允许。

Allow:/index.php?*

#允许资源文件，允许网站上，图片的抓取。

Allow:/*.jpg$

Allow:/*.png$

Allow:/*.gif$

#除了以上的，禁止抓取网站内任何文件，或者页面。

Disallow:/

比如我们的网站被挂马，后戳一般都是。php?unmgg.html、或者dds=123.html。这类，只要URL中带有？、=这类符号，当然你可以往里面加更多格式，比如带下划线“_”你可以用“Disallow:/_*.html$”这种方式进行防御。

再比如：挂马的是一个目录，正常的URL，比如“seozt/1233.html”，大家可以加一条禁止规则“Disallow:/seozt/*.html$”，这条规则是告诉搜索引擎，只要是seozt目录下的html文件，全部不能被抓取，大家懂了么，其实很简单，自己多熟悉下就行了。

这种写作优势在于：

首先，蜘蛛会抓取你很多核心目录，php目录，模板目录，会浪费很多目录资源，对吧，我们如果屏蔽目录，就会在robots.txt暴露我们的目录，别人也能分析出我们使用的是什么程序对吧，这个时候，我们用反向模式操作，直接允许html，拒绝其他所有，则可以有效的避开了，暴露目录的风险，对吧，好了，今天就讲解到这里，希望大家可以明白。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/282023