赞
踩
XML的全称是EXtensible Markup Language,可扩展标记语言编写,XML就是编写标签,与HTML非常类似,扩展名.xml。拥有良好的人机可读性。
用途:
XML声明说明XML文档的基本信息,包括版本号与字符集,写在XML第一行。
<?xml version="1.0" encoding="UTF-8"?>
version
:代表版本号1.0/1.1encoding
:UTF-8设置字符集,用于支持中文standalone
:是否独立
合法的标签名
-
分割适当的注释与缩进
合理使用属性
有序的子元素
特殊字符与CDATA标签
<
、>
特殊字符,会破坏文档结构实体引用 | 对应符号 | 说明 |
---|---|---|
< | < | 小于 |
> | > | 大于 |
& | & | 和号 |
' | ' | 单引号 |
" | " | 双引号 |
CDATA 指的是不应由 XML 解析器进行解析的文本数据,从 <![CDATA[
开始,到]]>
结束
<?xml version="1.0" encoding="UTF-8" ?> <!--人力资源管理系统--> <hr> <employee no="3301"> <name>张三</name> <age>30</age> <salary>4000</salary> <department> <dname>市场部</dname> <address>xx大厦-B1003</address> </department> </employee> <employee no="3303"> <name>李四</name> <age>28</age> <salary>5000</salary> <department> <dname>财务部</dname> <address>xx大厦-B1004</address> </department> </employee> </hr>
XML文档结构正确,但可能不是有效的。XML语义约束有两种定义方式:DTD与XML Schema。
DTD(Document Type Definition,文档类型定义)是一种简单易用的语义约束方式,DTD文件的扩展名为.dtd
。
利用DTD中的<!ELEMENT>
标签,可以定义XML文档中允许出现的节点及数量:
<!ELEMENT hr (employee)> employee>
:定义hr节点下只允许出现1个employee子节点<!ELEMENT employee (name,age,salary,department)>
:节点下必须包含以下四个节点,且按顺序出现<!ELEMENT name (#PCDATA)>
:定义name标签体只能是文本,#PCDATA
代表文本元素如某个子节点需要多次重复出现,则需要在子节点后增加相应的描述符:
<!ELEMENT hr (employee+)>
:hr节点下最少出现1个employee子节点<!ELEMENT hr (employee*)>
:hr节点下可出现0…n个employee子节点<!ELEMENT hr (employee?)>
:hr节点下最多出现1个employee子节点<?xml version="1.0" encoding="UTF-8" ?>
<!ELEMENT hr (employee+)>
<!ELEMENT employee (name,age,salary,department)>
<!ATTLIST employee no CDATA "">
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT salary (#PCDATA)>
<!ELEMENT department (dname,address)>
<!ELEMENT dname (#PCDATA)>
<!ELEMENT address (#PCDATA)>
在XML中使用<!DOCTYPE>标签来引用DTD文件:
<!DOCTYPE 根节点 SYSTEM "dtd文件路径">
:本地引用<!DOCTYPE 根节点 PUBLIC "dtd文件名字" "dtd文件的位置URL">
:网络引用<!DOCTYPE hr SYSTEM "hr.dtd">
XML Schema比DTD更为复杂,提供了数据类型、格式限定、数据范围等特性,是 W3C 标准。
<根节点 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="XML地址" xsi:schemaLocation="XSD地址">
:引入<hr xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemalocation="hr.xsd">
</hr>
定义约束:
<?xml version="1.0" encoding="UTF-8" ?> <schema xmlns="http://www.w3.org/2001/XMLSchema"> <element name="hr"> <!--complexType标签代表是复杂节点,包含子节点时必须使用此标签--> <complexType> <!--sequence标签代表必须按顺序进行严格书写--> <sequence> <!--minOccurs="1" maxOccurs="10" 这个标签最少出现一次,最多出现10次--> <element name="employee" minOccurs="1" maxOccurs="10"> <complexType> <sequence> <!--type="string" 指定类型--> <element name="name" type="string"/> <!----> <element name="age"> <!--简单类型约束--> <simpleType> <!--限定--> <restriction base="integer"> <!--最小限定--> <minInclusive value="18"/> <!--最大限定--> <maxInclusive value="60"/> </restriction> </simpleType> </element> <element name="salary" type="integer"/> <element name="department"> <complexType> <sequence> <element name="dname" type="string"/> <element name="address" type="string"/> </sequence> </complexType> </element> </sequence> <!--use="required"表示必须存在--> <attribute name="no" type="string" use="required"/> </complexType> </element> </sequence> </complexType> </element> </schema>
将标记语言文档一次性加载进内存,在内存中形成一颗dom树
逐行读取,基于事件驱动的
JAXP:
sun公司提供的解析器,支持dom和sax两种思想。
DOM4J:
是一个易用的、开源的库,用于解析XML。它应用于Java平台,具有性能优异、功能强大和极其易使用的特点。Dom4j将XML视为Document对象,XML标签被Dom4j定义为Element对象。
Jsoup:
是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
PULL:
Android操作系统内置的解析器,sax方式的。
是一个易用的、开源的库,用于解析XML。它应用于Java平台,具有性能优异、功能强大和极其易使用的特点。Dom4j将XML视为Document对象,XML标签被Dom4j定义为Element对象。
需要JDK1.8以上
/** * 描述:通过DOM4J读取xml文件 */ public class HrReader { public void readXML() { String file = "E:\\IdeaProjects\\study\\xml-study\\src\\hr.xml"; // SAXReader类是读取XML文件的核心类,用于将XML解析后以树的形式保存在内存中。 SAXReader reader = new SAXReader(); try { Document document = reader.read(file); // 获取XML文档的根节点,就是<hr>标签 Element rootElement = document.getRootElement(); // 用于获取指定标签的集合 List<Element> elementList = rootElement.elements("employee"); for (Element employee : elementList) { // 用于获取element唯一子节点 Element name = employee.element("name"); // 用于获取标签中的文本 String nameText = name.getText(); System.out.print("姓名:" + nameText); System.out.print(",年龄:" + employee.elementText("age")); System.out.print(",工资:" + employee.elementText("salary")); // 获取节点 Element department = employee.element("department"); String dname = department.element("dname").getText(); System.out.print(",部门:" + dname); System.out.print(",工作地点:" + department.elementText("address")); // 获取属性 Attribute att = employee.attribute("no"); String no = att.getText(); System.out.println(",工号:" + no); } } catch (DocumentException e) { e.printStackTrace(); } } public static void main(String[] args) { HrReader hrReader = new HrReader(); hrReader.readXML(); } }
/** * 描述:通过DOM4J更新xml文件 */ public class HrWriter { public void writeXML(){ String file = "E:\\IdeaProjects\\study\\xml-study\\src\\hr.xml"; SAXReader reader = new SAXReader(); try { Document document = reader.read(file); Element rootElement = document.getRootElement(); // 创建一个属于rootElement对象的employee节点 Element employee = rootElement.addElement("employee"); // 创建no属性 employee.addAttribute("no", "3311"); // 创建一个属于employee对象的name节点 Element name = employee.addElement("name"); // 设置name节点的值 name.setText("王五"); employee.addElement("age").setText("22"); employee.addElement("salary").setText("3500"); Element department = employee.addElement("department"); department.addElement("dname").setText("市场部"); department.addElement("address").setText("xx大厦-B1003"); // 创建字符输出流 Writer writer = new OutputStreamWriter(new FileOutputStream(file), "UTF-8"); // 将创建的节点写入文件中 document.write(writer); writer.close(); } catch (Exception e) { e.printStackTrace(); } } public static void main(String[] args) { HrWriter hrWriter = new HrWriter(); hrWriter.writeXML(); } }
Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
//2.1获取student.xml的path
String path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();
//2.2解析xml文档,加载文档进内存,获取dom树--->Document
Document document = Jsoup.parse(new File(path), "utf-8");
//3.获取元素对象 Element
Elements elements = document.getElementsByTag("name");
System.out.println(elements.size());
//3.1获取第一个name的Element对象
Element element = elements.get(0);
//3.2获取数据
String name = element.text();
System.out.println(name);
工具类,可以解析html或xml文档,返回Document
文档对象。代表内存中的dom树。
获取Element对象:
元素Element对象的集合。可以当做 ArrayList<Element>
来使用
元素对象
获取子元素对象:
获取属性值:
获取文本内容:
节点对象,是Document和Element的父类
selector: 选择器
XPath: XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言
//1.获取student.xml的path String path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath(); //2.获取Document对象 Document document = Jsoup.parse(new File(path), "utf-8"); //3.根据document对象,创建JXDocument对象 JXDocument jxDocument = new JXDocument(document); //4.结合xpath语法查询 //4.1查询所有student标签 List<JXNode> jxNodes = jxDocument.selN("//student"); for (JXNode jxNode : jxNodes) { System.out.println(jxNode); } System.out.println("--------------------"); //4.2查询所有student标签下的name标签 List<JXNode> jxNodes2 = jxDocument.selN("//student/name"); for (JXNode jxNode : jxNodes2) { System.out.println(jxNode); } System.out.println("--------------------"); //4.3查询student标签下带有id属性的name标签 List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@id]"); for (JXNode jxNode : jxNodes3) { System.out.println(jxNode); } System.out.println("--------------------"); //4.4查询student标签下带有id属性的name标签 并且id属性值为itcast List<JXNode> jxNodes4 = jxDocument.selN("//student/name[@id='itcast']"); for (JXNode jxNode : jxNodes4) { System.out.println(jxNode); }
XPath路径表达式是XML文档中查找数据的语言,可以极大的提高在提取数据时的开发效率。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。