赞
踩
用pandoc工具将doc文件转换为markdown文件后,有关图片的处理会变成:
(./url路径){width=“3.46875in” height=“1.0729166666666667in”}
但是我要展示到前端的,前端组件用的v-md-preview,结果展示的时候,后面的宽高没有识别,也展示出来了,那么就得把它去掉了,去掉之后也没有感觉有什么影响。
后端处理:
java正则匹配以{开始}结束的子串,并替换为""
正则: (({width)(.*?)(})) 匹配以{width开头 并且以}结尾的子串
public static void main(String[] args) {
//字符串
String line = "abcd{width=jfdksljfsdfjdslk}11111 ";
//正则表达式
String pattern = "(\\{width)(.*?)(\\})"; //Java正则表达式以括号分组,第一个括号表示以"{width"开头,第三个括号表示以}结尾,中间括号为目标值
String replaceStr = "";
Pattern r = Pattern.compile(pattern);
Matcher m = r.matcher(line);
while (m.find()) {
m.group();
replaceStr = m.replaceAll(""); //将匹配到的内容清空
}
最后输出:abcd11111
解决!
参考来自:正则匹配
结果width与height不知道怎么的,总是换行的,然后正则就匹配不到,也没找到跨行可以捕获的正则,于是就改成了一半一半的去匹配替换,另外又补充了一些其他可能存在的转换格式错误的地方,就都加进来了
0818
1.新增加了图片居中处理(正则替换,将md图片样式改为html图片标签,手写居中style)
2.新增图片描述居中处理(类似1,增加)
3.新增类似a. b. c.小标题的首行缩进,添加
3存在问题,存入文本时候默认就是空格了,这个在页面正式显示的时候还是不缩进的,所以只能就手动再将四个空格全局替换为 ,以后有好的办法再补充,加\或者 都不行
package Tool; import cn.hutool.core.io.FileUtil; import java.io.File; import java.nio.charset.StandardCharsets; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * 将pandoc转换后md文件转换为为合规的文件 */ public class FileTrans { /** * 将文档内的字符串进行替换 * 原字符串:strOld * 替换后的自古穿:strNew * * @param mdStr * @return */ public static String turnStr(String mdStr, String strOld, String strNew) { String turnStr = mdStr.replaceAll(strOld, strNew); return turnStr; } /** * 删除生成文件中无用的字符串 width * * @param */ public static String delUnUsefulStr(String text) { String regex = "((\\{width)(.+)(\"))"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(text); String replaceStr = ""; if (matcher.find()) { // 字符串匹配成功,删除该处内容 matcher.group(); replaceStr = matcher.replaceAll(""); } return replaceStr; } /** * 删除生成文件中无用的字符串height * * @param */ public static String delUnUsefulStr1(String text) { String regex = "((height)(.*?)(\\}))"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(text); String replaceStr = ""; if (matcher.find()) { // 字符串匹配成功,删除该处内容 matcher.group(); replaceStr = matcher.replaceAll(""); } return replaceStr; } /** * 图片描述居中处理 * 将图片描述 如 图1-2-3-1 添加html居中标签<center></center> * * @param */ public static String centerStr(String text) { String regex = "((图\\d)(.*?)(\\\r))"; System.out.println("text = " + text); Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(text); String replaceStr = ""; List<String> list = new ArrayList<String>(); while (matcher.find()) { // 字符串匹配成功,删除该处内容 list.add(matcher.group()); } for (String s : list) { s = s.replaceAll("\r", ""); String replace = s.replaceAll("\n", ""); String groupTurn = "<center>" + replace + "</center>\n"; //replaceStr = matcher.replaceAll(groupTurn); text = text.replaceAll(s, groupTurn); } return replaceStr == "" ? text : replaceStr; } /** * 图片居中处理 * ![](/pss/abf/template/xxx/image4.png) * 转换为html图片标签,然后通过style处理居中格式 * <img src="/pss/abf/template/xxx/image4.png", style="display:block; margin:auto"> * * @param */ public static String centerPicture(String text) { String regex = "((\\!\\[)(.*?)(\\)))"; System.out.println("text = " + text); Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(text); List<String> list = new ArrayList<>(); while (matcher.find()) { // 字符串匹配成功,删除该处内容 list.add(matcher.group()); } for (String s : list) { /** * ![](/pss/abf/template/xxx/image4.png) * 分割,取中间路径 */ String str = s.split("\\(")[1]; if (str.contains(")")) { String replace = str.split("\\)")[0]; String groupTurn = "<img src=\"" + replace + "\", style=\"display:block; margin:auto\">"; text = text.replace(s, groupTurn); } else { System.out.println("str = " + str); } } return text; } /** * 将 a. b. c. d.这种格式进行缩进 替代为 a. * * @param text * @return */ public static String turnIndentation(String text) { String regex = "((^[a-z])(.*?)(\\.))"; System.out.println("text = " + text); Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(text); List<String> list = new ArrayList<>(); while (matcher.find()) { // 字符串匹配成功,删除该处内容 list.add(matcher.group()); } for (String s : list) { String groupTurn = " " + s; text = text.replace(s, groupTurn); } return text; } public static void main(String[] args) { String mdStr = FileUtil.readString(new File("D:\\pandoc\\Test2.md"), "utf-8"); //删除width String s1 = delUnUsefulStr(mdStr); //删除height String s2 = delUnUsefulStr1(s1); //替换路径 正式存放路径都为中文三级菜单 /pss/template/三级菜单/images/1.png 业务需要 String s3 = turnStr(s2, "./test2/images/media", "/pss/abf/template//images"); //替换标题多余的* String s4 = turnStr(s3, "\\*\\*.\\*\\*", "."); //替换多个* String s5 = turnStr(s4, "\\*\\*\\*\\*", " "); //图片描述居中处理 String centerStr = centerStr(s5); //将md图片格式转为html图片标签,并居中样式 String centerPic = centerPicture(centerStr); //将小标题如a. b. c.进行首行缩进补充 String finalStr = turnIndentation(centerPic); //将替换好的String 重新生成到文件 FileUtil.writeBytes(finalStr.getBytes(StandardCharsets.UTF_8),"D:\\pandoc\\new.md"); } }
pandoc word转markdown 表格是肯定样式会丢的,因此,这步骤也需要手动去处理,找到了一个在线替换的网站,可以直接从word中复制出来,转完后再替换
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。