当前位置:   article > 正文

8.认识robots.txt到爬取信息_依照rebot.txt协议合法采集相关页面信息

依照rebot.txt协议合法采集相关页面信息

1.robots协议:

什么是robots.txt:

robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的,在一个搜索引擎要访问这个网站之前,会先访问robots.txt,robots.txt会告诉搜索引擎什么目录不可访问或者哪些目录可以访问。

注意:robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。robots.txt协议是任何用户可以查看的,当然,是使用其指定的搜索引擎,一般都会设置成*(所有引擎都可访问)

robots.txt内容:

我们先来随便看几个网站的robots.txt:
百度的:

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: YoudaoBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou web spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou inst spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou spider2
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou blog
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou News Spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou Orion spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: ChinasoSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sosospider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh


User-agent: yisouspider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: *
Disallow: /
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165

内容很丰富,我们截取一段来分析,截取这一段:

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

User-agent:允许的搜索引擎的网络蜘蛛,这里是百度的网络蜘蛛
disallow:不允许访问的目录,这里包括/baidu 、/s?、/ulink、/home/new/data等等

我们再来截取一段内容分析:

User-agent: *
Disallow: /
  • 1
  • 2

此处User-agent:* 表示所有的搜索引擎都可以访问robots.txt
Disallow: / 表示当前目录下的都不可获取

我们再来看一看xazlsec.com的robots.txt:
在这里插入图片描述
表示所有搜索引擎都可以访问,并且没有限制访问的目录,所有内容都可以访问

robots.txt的作用:

我们刚刚在上面分析内容的时候就已经看到过几个信息,其中一个百度透露的信息就是:

Disallow:/home/new/data
  • 1

/home/new/data,在告诉浏览器禁止访问的同时也告诉了我们部分目录的结构
这里给出一道正在进行的ISCC比赛题目:
在这里插入图片描述
进去之后有提示 robots.txt
紧接着访问一下:
在这里插入图片描述暴露了目录结构,从此再也没有其他信息
至此,flag因该存在某个目录界面,首先已经ban掉了src的code.txt,那么就猜测flag应该藏在code.txt里面,只不过不是这个src目录下,那么可以试试code/code.txt,分析到此为止。
进入code/code.txt
在这里插入图片描述

果然是这样,php正则绕过一下即可,就不细讲了。主要是知道robots.txt会暴露目录结构。

robots.txt写法:

文件写法

User-agent: * 这里的代表的所有的搜索引擎种类,是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/
.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /
?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

文件用法

例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
实例分析:淘宝网的 Robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
很显然淘宝不允许百度的机器人访问其网站下其所有的目录。
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow: /
例3. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/

Robot特殊参数:

允许 Googlebot:
例一:
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
只允许设定的user-agent访问

Allow扩展名:

可以同时使用“Disallow”和“Allow”。
例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。

搜集字典并编写枚举工具:

这里我没有实实在在的编写完成一个.exe工具,仍然是使用的python脚本,通过reques库和大量字典进行枚举:request这几个任务里面都学习和使用,熟练度逐渐提高,下面不对代码作过多讲解,直接上代码吧:

脚本:

import requests
import threading
def saomiao(url):
   # fo=open('youxiao.txt','w')
    try:
        res=requests.get(url,timeout=5).status_code
        if res== 200 :
            print(url+' '+str(res))
    except:
        pass 
   # fo.close()

def main(urls):
    for line in lines:
        line=line.replace('\n', '')
        url=urls+line
        #print(url)
        t= threading.Thread (target=saomiao, args=(url,))
        t.start()
        
    
if __name__=="__main__":
    f=open('yuming.txt','r')
    lines=f.readlines()
    main('http://www.xazlsec.com/')
    f.close()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26

youxiao.txt里面为我们的域名字典:
在这里插入图片描述6万多字典够跑的了

xazlsec.com域名:

把字典跑起来:
在这里插入图片描述然后被ban了ip ,大意了 ,有waf:
最后还是看一下我们扫描出来的域名有哪些把:
在这里插入图片描述

只扫了6个就被ban IP了,没有加代理池,加上代理池,看看最后的扫描结果:

   https://www.xazlsec.com/index.php
   https://www.xazlsec.com/install/
   https://www.xazlsec.com/index.php?.php
   https://www.xazlsec.com/usr/
   https://www.xazlsec.com/temp/
   https://www.xazlsec.com/admin/login.php/
   https://www.xazlsec.com/menu.php
   https://www.xazlsec.com/config.inc.php
   https://www.xazlsec.com/?.php
   https://www.xazlsec.com/license.txt
   https://www.xazlsec.com/var/
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

说一说自己的不足之处:这里超时时间我设置的是5s(tomeout=5),所以扫描出来的结果不一定全部都是可以访问到的,比如说
在这里插入图片描述也不知道为什么明明是404,但是还是扫描出这个结果了
其次也会因为我自己的网速原因导致有些界面正在访问但是timoeout了

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/282046
推荐阅读
相关标签
  

闽ICP备14008679号