当前位置:   article > 正文

【Java开发-Pdfbox】Pdfbox操作Pdf_pdfbox3.0.2

pdfbox3.0.2

功能需求

在PDF文件上的指定位置上,添加自定义内容,实现效果如下:
效果图
考虑到pdf存在多页,且每一页都有可能存在这样需要补充文字内容的地方,且补充的内容都一样,相对比较简单,所以考虑使用每页都查询的方式补充内容
分析需求如下:
1)多个不同关键字(关键字:批文文号、证件编号)进行批量定位,计算补充内容位置的坐标;
2)重复的关键字在不同页上,都要在指定位置添加自定义内容;
3)文字可以指定字体、大小、颜色;
4)除了增加指定内容,不能修改pdf其他内容;

实现设计思路

1.通过关键字方式确认关键字页码、坐标(以pdf每页左下角为坐标原点)等信息;
2.以关键字的坐标为基础,采用向右偏移,来确认补充内容的坐标;
3.将修改后的内容保存成新的文件
注:这里讲一个选用pdfbox的原因,一开始我选用的是iText,但是发现读取pdf内容都是无效的字符,为了节省开发时间,我并没有选择深入研究,经过测试使用pdfbox可以读取pdf中的中文字符。

引入工具包

		<dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.30</version>
        </dependency>
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>fontbox</artifactId>
            <version>2.0.30</version>
        </dependency>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

开发过程问题

问题一:关键字可以批量,考虑到性能,所以我们检索文本最好只检索一次,不进行重复检索

解决:使用HashSet集合,将多个关键字放入集合,文字检索时配合集合完成关键字检索;自建PageKeyWords对象,检索符合要求,就返回该对象,最后可以得到pdf中所有符合要求的关键字坐标、页码等信息,对象属性包含关键字页码(page)、关键字(keyword)、关键字坐标(textPositions)

问题二:增加指定内容后,原有Pdf内容被覆盖

解决:初次测试发现原有页面的内容会被替换,经过研究源码发现是PDPageContentStream构造函数的默认设置导致,默认使用PDPageContentStream.AppendMode.OVERWRITE创建,使用PDPageContentStream.AppendMode.APPEND进行创建可解决问题

问题三:增加的指定内容字体与pdf原有内容不一致,且中文系统出现报错

解决:更换字体,引入新的字体文件(注意引入路径,我是在resources目录下新建font文件夹),我的pdf是宋体,所以引入宋体字体文件(simsun.ttc),如果是ttc文件可以直接去windows系统里拷贝,在C:\Windows\Fonts目录下,ttf文件可能需要自行去网上查找下载

源码

package com.wuxx.demo.utils;

import cn.hutool.core.io.resource.ClassPathResource;
import org.apache.fontbox.ttf.TrueTypeCollection;
import org.apache.fontbox.ttf.TrueTypeFont;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.*;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;

import java.awt.*;
import java.io.*;
import java.util.*;
import java.util.List;

/**
 * @ClassName PdfHelper
 * @Description Pdf帮助类
 * @Author wuxx
 * @Date 2024/3/7 10:15
 * @Version 1.0
 */
public class PdfHelper {

    public static Map<String, TrueTypeFont> tccFontMaps = new HashMap<>();

    static {
        //静态初始化默认字体SimSun【宋体】 key = SimSun
        try {
            TrueTypeCollection ttc = new TrueTypeCollection(new ClassPathResource("font/simsun.ttc").getStream());
            tccFontMaps.put("SimSun", ttc.getFontByName("SimSun"));
        } catch (IOException e) {
            throw new RuntimeException("系统默认【宋体】字体加载失败,请检查字体文件");
        }
    }

    public static void main(String[] args) throws IOException {
    	//输入文件
        String pdfPath = "F:\\test\\inputPdf.pdf";
        //输入文件
        String saveFilePath = "F:\\test\\outPdf.pdf";
        Map<String, String> keyWords = new HashMap<>();
        //数据增加格式{关键字:增加内容}
        keyWords.put("批文文号", "批文文号【01010202】");
        keyWords.put("证件编号", "证件编号【AA01202023】");
        addTextByDefault(pdfPath, saveFilePath, keyWords);
    }


    /**
     * @Description 获取关键字所在PDF坐标
     * @param document 文档对象
     * @param keyWords 关键词Set<String>
     * @return List<float[]>  [坐标组<x,y>]
     */
    public static List<PageKeyWords> getKeyWords(PDDocument document, Set<String> keyWords) throws IOException {
        List<PageKeyWords> result = new ArrayList<>();
        PDFTextStripper stripper = new PDFTextStripper(){
            int index = 0,flag = 0;
            @Override
            protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
                if(keyWords.contains(text)){
                    flag++;
                    //选取左下角为坐标原点
//                    float x = textPositions.get(index).getEndX();
                    float xMax = textPositions.get(textPositions.size()-1).getEndX();
                    float y = textPositions.get(index).getEndY();
                    System.out.println(text+":"+xMax+","+y);
                    //获取关键字所在页码
                    int page = super.getCurrentPageNo();
                    PageKeyWords pageKeyWords = new PageKeyWords(text,page,new float[]{xMax, y});
                    result.add(pageKeyWords);
                    if(flag == 2){
                        index ++;
                        flag = 0;
                    }
                }
                super.writeString(text,textPositions);
            }
        };
        stripper.setSortByPosition(true);
        stripper.getText(document);
        return result;
    }

    public static List<PageKeyWords> getKeyWords(PDDocument document, String keyWord) throws IOException {
        Set<String> keyWords = new HashSet<>();
        keyWords.add(keyWord);
        return getKeyWords(document,keyWords);
    }



    /**
     *  在Pdf指定位置添加指定内容
     * @param document
     * @param pdPage
     * @return PDPageContentStream
     * @throws IOException
     */
    public static PDPageContentStream addText(PDDocument document ,PDPage pdPage,String content ,float x ,float y) throws IOException {
        PDPageContentStream contentStream = new PDPageContentStream(document, pdPage, PDPageContentStream.AppendMode.OVERWRITE,false,false);
        //设置字体和文字大小
        contentStream.setFont(getPDFont(document), 16.8f);
        //设置文字颜色
        contentStream.setNonStrokingColor(Color.BLACK);
        //指定位置设置文字
        contentStream.beginText();
        //偏移0.9
        float offset = 0.9f * 100;
        //此坐标为从下往上
        contentStream.newLineAtOffset(x+offset, y);
        //中文会抛出异常
        contentStream.showText(content);
        contentStream.endText();
        //关闭页面内容
        contentStream.close();
        return contentStream;
    }

    /**
     * 根据关键字,在PDF中添加文本
     * @param inputPath 输入Pdf路径
     * @param outPath 输出pdf路径
     * @param text 增加的文本{keyword:content} 例如{"批文文号":"11111"}
     */
    public static void addTextByDefault(String inputPath ,String outPath ,Map<String,String> text) throws IOException {
        PDDocument document = PDDocument.load(new File(inputPath));
        Set<String> keywords = text.keySet();
        List<PageKeyWords> pageKeyWordsList = getKeyWords(document, keywords);
        if(null != pageKeyWordsList && !pageKeyWordsList.isEmpty()){
            for (PageKeyWords p:pageKeyWordsList) {
//                addText(document, document.getPages().get(p.getPage() - 1), text.get(p.getKeyword()), p.getTextPositions()[0], p.getTextPositions()[1]);
                addTextByDefault(document,document.getPages().get(p.getPage()-1)
                        ,text.get(p.getKeyword()),p.getTextPositions()[0],p.getTextPositions()[1]);
            }
        }
        document.save(outPath);
        document.close();
    }


    public static PDPageContentStream addTextByDefault(PDDocument document ,PDPage pdPage,String content ,float x ,float y) throws IOException {
        return addText(document,pdPage,content,getPDFont(document),Color.BLACK,16.8f,x,y,0.9f);
    }

    /**
     * 在Pdf指定位置添加指定内容
     * @param document 文档对象
     * @param pdPage  文档页面
     * @param content 添加内容
     * @param pdFont 字体
     * @param color  字体颜色
     * @param fontSize 字体大小
     * @param x 添加x坐标,左下角为坐标原点
     * @param y 添加y坐标,左下角为坐标原点
     * @param offset 便宜距离
     * @return PDPageContentStream
     * @throws IOException
     */
    public static PDPageContentStream addText(PDDocument document ,PDPage pdPage,String content ,PDFont pdFont, Color color,float fontSize,float x ,float y ,Float offset) throws IOException {
        PDPageContentStream contentStream = new PDPageContentStream(document, pdPage, PDPageContentStream.AppendMode.APPEND,false,false);
        //设置字体和文字大小
        contentStream.setFont(pdFont,fontSize);
        //设置文字颜色
        contentStream.setNonStrokingColor(color);
        //指定位置设置文字
        contentStream.beginText();
        //偏移0.9
        if(null != offset){
            x = (offset * 100) + x;
        }
        //此坐标为从下往上
        contentStream.newLineAtOffset(x, y);
        //中文会抛出异常
        contentStream.showText(content);
        contentStream.endText();
        //关闭页面内容
        contentStream.close();
        return contentStream;
    }

    public static PDFont getPDFont(PDDocument document,String key) throws IOException {
        return PDType0Font.load(document, tccFontMaps.get(key), true);
    }

    public static PDFont getPDFont(PDDocument document) throws IOException {
        return getPDFont(document,"SimSun");
    }

}

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 167
  • 168
  • 169
  • 170
  • 171
  • 172
  • 173
  • 174
  • 175
  • 176
  • 177
  • 178
  • 179
  • 180
  • 181
  • 182
  • 183
  • 184
  • 185
  • 186
  • 187
  • 188
  • 189
  • 190
  • 191
  • 192
  • 193
  • 194
package com.wuxx.demo.utils;

public class PageKeyWords {
    /**
     * 关键字
     */
    private String keyword;
    /**
     * 关键字页码
     */
    private int page;
    /**
     * 关键字坐标[x,y]
     */
    private float[] textPositions;

    public PageKeyWords() {
    }

    public PageKeyWords(String keyword, int page, float[] textPositions) {
        this.keyword = keyword;
        this.page = page;
        this.textPositions = textPositions;
    }

    public String getKeyword() {
        return keyword;
    }

    public void setKeyword(String keyword) {
        this.keyword = keyword;
    }

    public int getPage() {
        return page;
    }

    public void setPage(int page) {
        this.page = page;
    }

    public float[] getTextPositions() {
        return textPositions;
    }

    public void setTextPositions(float[] textPositions) {
        this.textPositions = textPositions;
    }
}

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50

使用运行结果

设置main函数中的输入和输入文件、关键字与要增加的内容,执行函数,得到效果如下:
在这里插入图片描述
我这里测试的pdf文件中包含此关键字的一共有4处,且4处都增加内容成功,达到功能需求。

结尾

以上是此次功能开发过程的一个记录,有用的开发过程,我都会收录到我的开发专题里,欢迎大家互相学习指正,有好的方式或者疑问欢迎在评论区沟通交流,感谢!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/530705
推荐阅读
相关标签
  

闽ICP备14008679号