首先得明白这种特殊码是什么,其实就是unicode吗 只是有格式而已。
集 96c6 是16进制的格式。
注意在量词后面添加? 来实现非贪婪模式
直接上代码吧
- package com.xue.tools;
-
- import java.io.BufferedWriter;
- import java.io.FileWriter;
- import java.io.IOException;
- import java.net.MalformedURLException;
- import java.net.URL;
- import java.util.List;
- import java.util.regex.Matcher;
- import java.util.regex.Pattern;
-
- import org.dom4j.DocumentException;
- import org.htmlcleaner.HtmlCleaner;
- import org.htmlcleaner.TagNode;
- import org.htmlcleaner.XPatherException;
-
- public class Test {
-
- public static void main(String[] args) throws IOException, DocumentException, XPatherException {
- // 定义正则表达式来搜索中文字符的转义符号
- Pattern compile = Pattern.compile("&#.*?;");
- // 测试用中文字符
- String sourceString = "C集团天c津大唐国际盘山发电有限责任公司";
- Matcher matcher = compile.matcher(sourceString);
- // 循环搜索 并转换 替换
- while (matcher.find()) {
- String group = matcher.group();
- // 获得16进制的码
- String hexcode = "0" + group.replaceAll("(&#|;)", "");
- // 字符串形式的16进制码转成int并转成char 并替换到源串中
- sourceString = sourceString.replaceAll(group, (char) Integer.decode(hexcode).intValue() + "");
- }
- System.out.println(sourceString);
- }
-
- }