当前位置:   article > 正文

java 将html特殊码转换成字符 &#x

#x9650;公司关于江西省江‰

 

首先得明白这种特殊码是什么,其实就是unicode吗 只是有格式而已。 

 

集  96c6 是16进制的格式。

注意在量词后面添加? 来实现非贪婪模式

直接上代码吧

  1. package com.xue.tools;
  2. import java.io.BufferedWriter;
  3. import java.io.FileWriter;
  4. import java.io.IOException;
  5. import java.net.MalformedURLException;
  6. import java.net.URL;
  7. import java.util.List;
  8. import java.util.regex.Matcher;
  9. import java.util.regex.Pattern;
  10. import org.dom4j.DocumentException;
  11. import org.htmlcleaner.HtmlCleaner;
  12. import org.htmlcleaner.TagNode;
  13. import org.htmlcleaner.XPatherException;
  14. public class Test {
  15. public static void main(String[] args) throws IOException, DocumentException, XPatherException {
  16. // 定义正则表达式来搜索中文字符的转义符号
  17. Pattern compile = Pattern.compile("&#.*?;");
  18. // 测试用中文字符
  19. String sourceString = "C集团天c津大唐国际盘山发电有限责任公司";
  20. Matcher matcher = compile.matcher(sourceString);
  21. // 循环搜索 并转换 替换
  22. while (matcher.find()) {
  23. String group = matcher.group();
  24. // 获得16进制的码
  25. String hexcode = "0" + group.replaceAll("(&#|;)", "");
  26. // 字符串形式的16进制码转成int并转成char 并替换到源串中
  27. sourceString = sourceString.replaceAll(group, (char) Integer.decode(hexcode).intValue() + "");
  28. }
  29. System.out.println(sourceString);
  30. }
  31. }

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/636135
推荐阅读
相关标签
  

闽ICP备14008679号