当前位置:   article > 正文

防止抓取html代码,robots.txt只允许抓取html页面,防止抓取垃圾信息!

robots禁止抓取所有带有特定参数的页面

今天我们代代SEO为大家详细的讲解下“robots.txt只允许抓取html页面,防止抓取垃圾信息!”代代SEO在做网站这么多年中,经常会遇到客户的网站被挂马的情况,原因是自己维护网站不利,或者用的是市面上开源的CMS,直接下载源码安装使用,也不管里面有没有漏洞和后门,所以造成了,后期被挂马入侵,产生大量垃圾违法页面被百度抓取。

51a7cf2b944032b6067e18790917dc57.png

被挂马的一些人很奇怪,为什么自己的网站正常发布的内容不被收录,但是垃圾页面违法内容却被百度大量收录,其实很简单,哪些挂马人员直接在哪些违法页面上,挂了蜘蛛池,所以就会造成这个问题,就算我们尽管解决了网站被挂马的问题,网站上的垃圾页面,还是不断会被百度抓取,死链生效也是需要很长时间,这个时候怎么办那?我们可以使用robots.txt来解决这个问题。

5320af601fe2f08b9d33db82fdb88c59.png

实现原理:

我们可以使用robots.txt限制用户只能抓取HTMl页面文件,并且可以限制指定目录的HTML,和屏蔽指定目录的HTML文件,下面做一个robots.txt的写法,大家可以自己研究下,实际应用到自己的网站上面去。

e70f895f9e092054ebfbf3867704244d.png

可以解决的挂马形式:

这个robots编写规则,就是主要针对上传类的挂马,比如增加xxx.php?=dddd.html;xxxx.php;上传也不会被百度抓取,降低网监风险。

#适用于所有搜索引擎

User-agent:*

#允许首页根目录/和不带斜杠、例如www.daidaiseo.com/www.daidaiseo.com

Allow:/$

Allow:$

#文件属性设置为禁止修改(固定属性,入口只能是index.html/index.php)

Allow:/index.php

Allow:/index.html

#允许静态生成目录的抓取,此处是允许抓取页面中所有的html文件

Allow:/*.html$

#禁止所有带参数的html页面(禁止抓取挂马html页面)规则可以自己定义

Disallow:/*?*.html$

Disallow:/*=*.html$

#允许单一入口,只允许,带?号的index,其他的html,带符号,一律不允许。

Allow:/index.php?*

#允许资源文件,允许网站上,图片的抓取。

Allow:/*.jpg$

Allow:/*.png$

Allow:/*.gif$

#除了以上的,禁止抓取网站内任何文件,或者页面。

Disallow:/

比如我们的网站被挂马,后戳一般都是。php?unmgg.html、或者dds=123.html。这类,只要URL中带有?、=这类符号,当然你可以往里面加更多格式,比如带下划线“_”你可以用“Disallow:/_*.html$”这种方式进行防御。

再比如:挂马的是一个目录,正常的URL,比如“seozt/1233.html”,大家可以加一条禁止规则“Disallow:/seozt/*.html$”,这条规则是告诉搜索引擎,只要是seozt目录下的html文件,全部不能被抓取,大家懂了么,其实很简单,自己多熟悉下就行了。

这种写作优势在于:

首先,蜘蛛会抓取你很多核心目录,php目录,模板目录,会浪费很多目录资源,对吧,我们如果屏蔽目录,就会在robots.txt暴露我们的目录,别人也能分析出我们使用的是什么程序对吧,这个时候,我们用反向模式操作,直接允许html,拒绝其他所有,则可以有效的避开了,暴露目录的风险,对吧,好了,今天就讲解到这里,希望大家可以明白。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/282023
推荐阅读
相关标签
  

闽ICP备14008679号