赞
踩
robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的,在一个搜索引擎要访问这个网站之前,会先访问robots.txt,robots.txt会告诉搜索引擎什么目录不可访问或者哪些目录可以访问。
注意:robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。robots.txt协议是任何用户可以查看的,当然,是使用其指定的搜索引擎,一般都会设置成*(所有引擎都可访问)
我们先来随便看几个网站的robots.txt:
百度的:
User-agent: Baiduspider Disallow: /baidu Disallow: /s? Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Googlebot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: MSNBot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Baiduspider-image Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: YoudaoBot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Sogou web spider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Sogou inst spider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Sogou spider2 Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Sogou blog Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Sogou News Spider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Sogou Orion spider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: ChinasoSpider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Sosospider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: yisouspider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: EasouSpider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: * Disallow: /
内容很丰富,我们截取一段来分析,截取这一段:
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh
User-agent:允许的搜索引擎的网络蜘蛛,这里是百度的网络蜘蛛
disallow:不允许访问的目录,这里包括/baidu 、/s?、/ulink、/home/new/data等等
我们再来截取一段内容分析:
User-agent: *
Disallow: /
此处User-agent:* 表示所有的搜索引擎都可以访问robots.txt
Disallow: / 表示当前目录下的都不可获取
我们再来看一看xazlsec.com的robots.txt:
表示所有搜索引擎都可以访问,并且没有限制访问的目录,所有内容都可以访问
我们刚刚在上面分析内容的时候就已经看到过几个信息,其中一个百度透露的信息就是:
Disallow:/home/new/data
/home/new/data,在告诉浏览器禁止访问的同时也告诉了我们部分目录的结构
这里给出一道正在进行的ISCC比赛题目:
进去之后有提示 robots.txt
紧接着访问一下:
暴露了目录结构,从此再也没有其他信息
至此,flag因该存在某个目录界面,首先已经ban掉了src的code.txt,那么就猜测flag应该藏在code.txt里面,只不过不是这个src目录下,那么可以试试code/code.txt,分析到此为止。
进入code/code.txt
果然是这样,php正则绕过一下即可,就不细讲了。主要是知道robots.txt会暴露目录结构。
User-agent: * 这里的代表的所有的搜索引擎种类,是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
实例分析:淘宝网的 Robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
很显然淘宝不允许百度的机器人访问其网站下其所有的目录。
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow: /
例3. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
允许 Googlebot:
例一:
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
只允许设定的user-agent访问
可以同时使用“Disallow”和“Allow”。
例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。
这里我没有实实在在的编写完成一个.exe工具,仍然是使用的python脚本,通过reques库和大量字典进行枚举:request这几个任务里面都学习和使用,熟练度逐渐提高,下面不对代码作过多讲解,直接上代码吧:
import requests import threading def saomiao(url): # fo=open('youxiao.txt','w') try: res=requests.get(url,timeout=5).status_code if res== 200 : print(url+' '+str(res)) except: pass # fo.close() def main(urls): for line in lines: line=line.replace('\n', '') url=urls+line #print(url) t= threading.Thread (target=saomiao, args=(url,)) t.start() if __name__=="__main__": f=open('yuming.txt','r') lines=f.readlines() main('http://www.xazlsec.com/') f.close()
youxiao.txt里面为我们的域名字典:
6万多字典够跑的了
把字典跑起来:
然后被ban了ip ,大意了 ,有waf:
最后还是看一下我们扫描出来的域名有哪些把:
只扫了6个就被ban IP了,没有加代理池,加上代理池,看看最后的扫描结果:
https://www.xazlsec.com/index.php
https://www.xazlsec.com/install/
https://www.xazlsec.com/index.php?.php
https://www.xazlsec.com/usr/
https://www.xazlsec.com/temp/
https://www.xazlsec.com/admin/login.php/
https://www.xazlsec.com/menu.php
https://www.xazlsec.com/config.inc.php
https://www.xazlsec.com/?.php
https://www.xazlsec.com/license.txt
https://www.xazlsec.com/var/
说一说自己的不足之处:这里超时时间我设置的是5s(tomeout=5),所以扫描出来的结果不一定全部都是可以访问到的,比如说
也不知道为什么明明是404,但是还是扫描出这个结果了
其次也会因为我自己的网速原因导致有些界面正在访问但是timoeout了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。