赞
踩
在PDF文件上的指定位置上,添加自定义内容,实现效果如下:
考虑到pdf存在多页,且每一页都有可能存在这样需要补充文字内容的地方,且补充的内容都一样,相对比较简单,所以考虑使用每页都查询的方式补充内容,
分析需求如下:
1)多个不同关键字(关键字:批文文号、证件编号)进行批量定位,计算补充内容位置的坐标;
2)重复的关键字在不同页上,都要在指定位置添加自定义内容;
3)文字可以指定字体、大小、颜色;
4)除了增加指定内容,不能修改pdf其他内容;
1.通过关键字方式确认关键字页码、坐标(以pdf每页左下角为坐标原点)等信息;
2.以关键字的坐标为基础,采用向右偏移,来确认补充内容的坐标;
3.将修改后的内容保存成新的文件
注:这里讲一个选用pdfbox的原因,一开始我选用的是iText,但是发现读取pdf内容都是无效的字符,为了节省开发时间,我并没有选择深入研究,经过测试使用pdfbox可以读取pdf中的中文字符。
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.30</version>
</dependency>
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>fontbox</artifactId>
<version>2.0.30</version>
</dependency>
问题一:关键字可以批量,考虑到性能,所以我们检索文本最好只检索一次,不进行重复检索
解决:使用HashSet集合,将多个关键字放入集合,文字检索时配合集合完成关键字检索;自建PageKeyWords对象,检索符合要求,就返回该对象,最后可以得到pdf中所有符合要求的关键字坐标、页码等信息,对象属性包含关键字页码(page)、关键字(keyword)、关键字坐标(textPositions)
问题二:增加指定内容后,原有Pdf内容被覆盖
解决:初次测试发现原有页面的内容会被替换,经过研究源码发现是PDPageContentStream构造函数的默认设置导致,默认使用PDPageContentStream.AppendMode.OVERWRITE创建,使用PDPageContentStream.AppendMode.APPEND进行创建可解决问题
问题三:增加的指定内容字体与pdf原有内容不一致,且中文系统出现报错
解决:更换字体,引入新的字体文件(注意引入路径,我是在resources目录下新建font文件夹),我的pdf是宋体,所以引入宋体字体文件(simsun.ttc),如果是ttc文件可以直接去windows系统里拷贝,在C:\Windows\Fonts目录下,ttf文件可能需要自行去网上查找下载
package com.wuxx.demo.utils; import cn.hutool.core.io.resource.ClassPathResource; import org.apache.fontbox.ttf.TrueTypeCollection; import org.apache.fontbox.ttf.TrueTypeFont; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.PDPageContentStream; import org.apache.pdfbox.pdmodel.font.*; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.pdfbox.text.TextPosition; import java.awt.*; import java.io.*; import java.util.*; import java.util.List; /** * @ClassName PdfHelper * @Description Pdf帮助类 * @Author wuxx * @Date 2024/3/7 10:15 * @Version 1.0 */ public class PdfHelper { public static Map<String, TrueTypeFont> tccFontMaps = new HashMap<>(); static { //静态初始化默认字体SimSun【宋体】 key = SimSun try { TrueTypeCollection ttc = new TrueTypeCollection(new ClassPathResource("font/simsun.ttc").getStream()); tccFontMaps.put("SimSun", ttc.getFontByName("SimSun")); } catch (IOException e) { throw new RuntimeException("系统默认【宋体】字体加载失败,请检查字体文件"); } } public static void main(String[] args) throws IOException { //输入文件 String pdfPath = "F:\\test\\inputPdf.pdf"; //输入文件 String saveFilePath = "F:\\test\\outPdf.pdf"; Map<String, String> keyWords = new HashMap<>(); //数据增加格式{关键字:增加内容} keyWords.put("批文文号", "批文文号【01010202】"); keyWords.put("证件编号", "证件编号【AA01202023】"); addTextByDefault(pdfPath, saveFilePath, keyWords); } /** * @Description 获取关键字所在PDF坐标 * @param document 文档对象 * @param keyWords 关键词Set<String> * @return List<float[]> [坐标组<x,y>] */ public static List<PageKeyWords> getKeyWords(PDDocument document, Set<String> keyWords) throws IOException { List<PageKeyWords> result = new ArrayList<>(); PDFTextStripper stripper = new PDFTextStripper(){ int index = 0,flag = 0; @Override protected void writeString(String text, List<TextPosition> textPositions) throws IOException { if(keyWords.contains(text)){ flag++; //选取左下角为坐标原点 // float x = textPositions.get(index).getEndX(); float xMax = textPositions.get(textPositions.size()-1).getEndX(); float y = textPositions.get(index).getEndY(); System.out.println(text+":"+xMax+","+y); //获取关键字所在页码 int page = super.getCurrentPageNo(); PageKeyWords pageKeyWords = new PageKeyWords(text,page,new float[]{xMax, y}); result.add(pageKeyWords); if(flag == 2){ index ++; flag = 0; } } super.writeString(text,textPositions); } }; stripper.setSortByPosition(true); stripper.getText(document); return result; } public static List<PageKeyWords> getKeyWords(PDDocument document, String keyWord) throws IOException { Set<String> keyWords = new HashSet<>(); keyWords.add(keyWord); return getKeyWords(document,keyWords); } /** * 在Pdf指定位置添加指定内容 * @param document * @param pdPage * @return PDPageContentStream * @throws IOException */ public static PDPageContentStream addText(PDDocument document ,PDPage pdPage,String content ,float x ,float y) throws IOException { PDPageContentStream contentStream = new PDPageContentStream(document, pdPage, PDPageContentStream.AppendMode.OVERWRITE,false,false); //设置字体和文字大小 contentStream.setFont(getPDFont(document), 16.8f); //设置文字颜色 contentStream.setNonStrokingColor(Color.BLACK); //指定位置设置文字 contentStream.beginText(); //偏移0.9 float offset = 0.9f * 100; //此坐标为从下往上 contentStream.newLineAtOffset(x+offset, y); //中文会抛出异常 contentStream.showText(content); contentStream.endText(); //关闭页面内容 contentStream.close(); return contentStream; } /** * 根据关键字,在PDF中添加文本 * @param inputPath 输入Pdf路径 * @param outPath 输出pdf路径 * @param text 增加的文本{keyword:content} 例如{"批文文号":"11111"} */ public static void addTextByDefault(String inputPath ,String outPath ,Map<String,String> text) throws IOException { PDDocument document = PDDocument.load(new File(inputPath)); Set<String> keywords = text.keySet(); List<PageKeyWords> pageKeyWordsList = getKeyWords(document, keywords); if(null != pageKeyWordsList && !pageKeyWordsList.isEmpty()){ for (PageKeyWords p:pageKeyWordsList) { // addText(document, document.getPages().get(p.getPage() - 1), text.get(p.getKeyword()), p.getTextPositions()[0], p.getTextPositions()[1]); addTextByDefault(document,document.getPages().get(p.getPage()-1) ,text.get(p.getKeyword()),p.getTextPositions()[0],p.getTextPositions()[1]); } } document.save(outPath); document.close(); } public static PDPageContentStream addTextByDefault(PDDocument document ,PDPage pdPage,String content ,float x ,float y) throws IOException { return addText(document,pdPage,content,getPDFont(document),Color.BLACK,16.8f,x,y,0.9f); } /** * 在Pdf指定位置添加指定内容 * @param document 文档对象 * @param pdPage 文档页面 * @param content 添加内容 * @param pdFont 字体 * @param color 字体颜色 * @param fontSize 字体大小 * @param x 添加x坐标,左下角为坐标原点 * @param y 添加y坐标,左下角为坐标原点 * @param offset 便宜距离 * @return PDPageContentStream * @throws IOException */ public static PDPageContentStream addText(PDDocument document ,PDPage pdPage,String content ,PDFont pdFont, Color color,float fontSize,float x ,float y ,Float offset) throws IOException { PDPageContentStream contentStream = new PDPageContentStream(document, pdPage, PDPageContentStream.AppendMode.APPEND,false,false); //设置字体和文字大小 contentStream.setFont(pdFont,fontSize); //设置文字颜色 contentStream.setNonStrokingColor(color); //指定位置设置文字 contentStream.beginText(); //偏移0.9 if(null != offset){ x = (offset * 100) + x; } //此坐标为从下往上 contentStream.newLineAtOffset(x, y); //中文会抛出异常 contentStream.showText(content); contentStream.endText(); //关闭页面内容 contentStream.close(); return contentStream; } public static PDFont getPDFont(PDDocument document,String key) throws IOException { return PDType0Font.load(document, tccFontMaps.get(key), true); } public static PDFont getPDFont(PDDocument document) throws IOException { return getPDFont(document,"SimSun"); } }
package com.wuxx.demo.utils; public class PageKeyWords { /** * 关键字 */ private String keyword; /** * 关键字页码 */ private int page; /** * 关键字坐标[x,y] */ private float[] textPositions; public PageKeyWords() { } public PageKeyWords(String keyword, int page, float[] textPositions) { this.keyword = keyword; this.page = page; this.textPositions = textPositions; } public String getKeyword() { return keyword; } public void setKeyword(String keyword) { this.keyword = keyword; } public int getPage() { return page; } public void setPage(int page) { this.page = page; } public float[] getTextPositions() { return textPositions; } public void setTextPositions(float[] textPositions) { this.textPositions = textPositions; } }
设置main函数中的输入和输入文件、关键字与要增加的内容,执行函数,得到效果如下:
我这里测试的pdf文件中包含此关键字的一共有4处,且4处都增加内容成功,达到功能需求。
以上是此次功能开发过程的一个记录,有用的开发过程,我都会收录到我的开发专题里,欢迎大家互相学习指正,有好的方式或者疑问欢迎在评论区沟通交流,感谢!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。