当前位置:   article > 正文

pandoc word转markdown之后正则修改_pandoc 图片 居中

pandoc 图片 居中

问题

用pandoc工具将doc文件转换为markdown文件后,有关图片的处理会变成:

(./url路径){width=“3.46875in” height=“1.0729166666666667in”}

但是我要展示到前端的,前端组件用的v-md-preview,结果展示的时候,后面的宽高没有识别,也展示出来了,那么就得把它去掉了,去掉之后也没有感觉有什么影响。

方法

后端处理:

思路

java正则匹配以{开始}结束的子串,并替换为""

正则: (({width)(.*?)(})) 匹配以{width开头 并且以}结尾的子串

 public static void main(String[] args) {
        //字符串
        String line = "abcd{width=jfdksljfsdfjdslk}11111 ";
        //正则表达式
        String pattern = "(\\{width)(.*?)(\\})"; //Java正则表达式以括号分组,第一个括号表示以"{width"开头,第三个括号表示以}结尾,中间括号为目标值
        String replaceStr = "";
        Pattern r = Pattern.compile(pattern);
        Matcher m = r.matcher(line);
        while (m.find()) {
           m.group();
           replaceStr = m.replaceAll(""); //将匹配到的内容清空
        }

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

最后输出:abcd11111

解决!
参考来自:正则匹配

后续

结果width与height不知道怎么的,总是换行的,然后正则就匹配不到,也没找到跨行可以捕获的正则,于是就改成了一半一半的去匹配替换,另外又补充了一些其他可能存在的转换格式错误的地方,就都加进来了

0818
1.新增加了图片居中处理(正则替换,将md图片样式改为html图片标签,手写居中style)
2.新增图片描述居中处理(类似1,增加


3.新增类似a. b. c.小标题的首行缩进,添加    
3存在问题,存入文本时候默认就是空格了,这个在页面正式显示的时候还是不缩进的,所以只能就手动再将四个空格全局替换为    ,以后有好的办法再补充,加\或者 都不行

package Tool;

import cn.hutool.core.io.FileUtil;

import java.io.File;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 将pandoc转换后md文件转换为为合规的文件
 */
public class FileTrans {


    /**
     * 将文档内的字符串进行替换
     * 原字符串:strOld
     * 替换后的自古穿:strNew
     *
     * @param mdStr
     * @return
     */
    public static String turnStr(String mdStr, String strOld, String strNew) {
        String turnStr = mdStr.replaceAll(strOld, strNew);
        return turnStr;
    }


    /**
     * 删除生成文件中无用的字符串 width
     *
     * @param
     */
    public static String delUnUsefulStr(String text) {
        String regex = "((\\{width)(.+)(\"))";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);
        String replaceStr = "";

        if (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            matcher.group();
            replaceStr = matcher.replaceAll("");
        }
        return replaceStr;
    }


    /**
     * 删除生成文件中无用的字符串height
     *
     * @param
     */
    public static String delUnUsefulStr1(String text) {
        String regex = "((height)(.*?)(\\}))";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);
        String replaceStr = "";

        if (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            matcher.group();
            replaceStr = matcher.replaceAll("");

        }
        return replaceStr;
    }

    /**
     * 图片描述居中处理
     * 将图片描述 如 图1-2-3-1  添加html居中标签<center></center>
     *
     * @param
     */
    public static String centerStr(String text) {
        String regex = "((图\\d)(.*?)(\\\r))";

        System.out.println("text = " + text);
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);
        String replaceStr = "";

        List<String> list = new ArrayList<String>();


        while (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            list.add(matcher.group());
        }

        for (String s : list) {
            s = s.replaceAll("\r", "");
            String replace = s.replaceAll("\n", "");
            String groupTurn = "<center>" + replace + "</center>\n";
            //replaceStr = matcher.replaceAll(groupTurn);
            text = text.replaceAll(s, groupTurn);
        }
        return replaceStr == "" ? text : replaceStr;
    }

    /**
     * 图片居中处理
     * ![](/pss/abf/template/xxx/image4.png)
     * 转换为html图片标签,然后通过style处理居中格式
     * <img src="/pss/abf/template/xxx/image4.png", style="display:block; margin:auto">
     *
     * @param
     */
    public static String centerPicture(String text) {
        String regex = "((\\!\\[)(.*?)(\\)))";

        System.out.println("text = " + text);
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);

        List<String> list = new ArrayList<>();

        while (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            list.add(matcher.group());
        }

        for (String s : list) {
            /**
             * ![](/pss/abf/template/xxx/image4.png)
             * 分割,取中间路径
             */
            String str = s.split("\\(")[1];
            if (str.contains(")")) {
                String replace = str.split("\\)")[0];
                String groupTurn = "<img src=\"" + replace + "\", style=\"display:block; margin:auto\">";
                text = text.replace(s, groupTurn);
            } else {
                System.out.println("str = " + str);
            }
        }
        return text;
    }

    /**
     * 将 a. b. c. d.这种格式进行缩进  替代为 &nbsp;&nbsp;&nbsp;&nbsp;a.
     *
     * @param text
     * @return
     */
    public static String turnIndentation(String text) {
        String regex = "((^[a-z])(.*?)(\\.))";

        System.out.println("text = " + text);
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);

        List<String> list = new ArrayList<>();

        while (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            list.add(matcher.group());
        }
        for (String s : list) {
            String groupTurn = "&nbsp;&nbsp;&nbsp;&nbsp;" + s;
            text = text.replace(s, groupTurn);
        }

        return text;
    }

    public static void main(String[] args) {

        String mdStr = FileUtil.readString(new File("D:\\pandoc\\Test2.md"), "utf-8");
        //删除width
        String s1 = delUnUsefulStr(mdStr);
        //删除height
        String s2 = delUnUsefulStr1(s1);
        //替换路径 正式存放路径都为中文三级菜单 /pss/template/三级菜单/images/1.png 业务需要
        String s3 = turnStr(s2, "./test2/images/media", "/pss/abf/template//images");
        //替换标题多余的*
        String s4 = turnStr(s3, "\\*\\*.\\*\\*", ".");
        //替换多个*
        String s5 = turnStr(s4, "\\*\\*\\*\\*", " ");
        //图片描述居中处理
        String centerStr = centerStr(s5);
        //将md图片格式转为html图片标签,并居中样式
        String centerPic = centerPicture(centerStr);
        //将小标题如a. b. c.进行首行缩进补充&nbsp;&nbsp;&nbsp;&nbsp;
        String finalStr = turnIndentation(centerPic);
        //将替换好的String 重新生成到文件
        FileUtil.writeBytes(finalStr.getBytes(StandardCharsets.UTF_8),"D:\\pandoc\\new.md");

    }
}


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 167
  • 168
  • 169
  • 170
  • 171
  • 172
  • 173
  • 174
  • 175
  • 176
  • 177
  • 178
  • 179
  • 180
  • 181
  • 182
  • 183
  • 184
  • 185
  • 186
  • 187
  • 188
  • 189
  • 190
  • 191
  • 192
  • 193
  • 194
  • 195
  • 196

表格处理

pandoc word转markdown 表格是肯定样式会丢的,因此,这步骤也需要手动去处理,找到了一个在线替换的网站,可以直接从word中复制出来,转完后再替换

markdown表格转换

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/159222
推荐阅读
相关标签
  

闽ICP备14008679号