当前位置:   article > 正文

java使用pdfbox拆分PDF文件

pdfbox拆分pdf

一、需求

将一个PDF文件按页拆分成多个PDF,或者将某一页中某一部分内容单独拆分出来作为一个新的PDF

二、准备

本文使用pdfbox实现,因此需要先导入pdfbox的依赖

		<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.25</version>
        </dependency>
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>jbig2-imageio</artifactId>
            <version>3.0.2</version>
        </dependency>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

三、功能开发

1.按页拆分

代码如下(示例):

    public static void splitPdf(File sourceFile) throws IOException {
        splitPdf(sourceFile, 1);
    }

    public static void splitPdf(File sourceFile, String targetPath) throws IOException {
        splitPdf(sourceFile, targetPath, 1);
    }

    public static void splitPdf(File sourceFile, Integer pageStep) throws IOException {
        splitPdf(sourceFile, sourceFile.getParentFile().getPath(), 1);
    }

    /**
     * @return void
     * @Description //TODO pdf拆分,结果命名规则为原文件名-startPage_endPage.pdf
     * @Date 2022/2/16 10:20
     * @Param [sourceFile:要拆分的pdf文件, targetPath:结果输出目录, pageStep:以多少页为基准拆分]
     **/
    public static void splitPdf(File sourceFile, String targetPath, Integer pageStep) throws IOException {
        String fileName = sourceFile.getName().replace(".pdf", "");
        PDDocument document = PDDocument.load(sourceFile);
        int pageSize = document.getNumberOfPages();
        int count = pageSize / pageStep + (pageSize % pageStep == 0 ? 0 : 1);
        log.info("pageSize : {}, pageStep : {}, count : {}", pageSize, pageStep, count);
        PDDocument doc = new PDDocument();
        PDPage page = null;
        String splitName = null;
        for (int i = 0; i < count; i++) {
            PDFContentTool.clearDocument(doc);
            int startPage = i * pageStep;
            int endPage = startPage + pageStep;
            if (endPage > pageSize) {
                endPage = pageSize;
            }
            splitName = fileName + "-" + (startPage + 1) + "_" + endPage + ".pdf";
            for (int index = startPage; index < endPage; index++) {
                page = document.getPage(index);
                doc.addPage(page);
            }
            File outFile = new File(targetPath, splitName);
            doc.save(outFile);
        }
        document.close();
        doc.close();
    }

    /**
     * @return void
     * @Description //TODO pdf拆分,结果命名规则为原文件名-startPage_endPage.pdf
     * @Date 2022/2/16 10:20
     * @Param [sourceFile:要拆分的pdf文件, targetPath:结果输出目录, pageIndex,:从哪里开始拆分]
     **/
    public static void splitPdfWithPageIndex(File sourceFile, String targetFile, Integer pageIndex) throws IOException {
        splitPdfWithPageIndex(sourceFile,targetFile,pageIndex,1);
    }

    /**
     * @return void
     * @Description //TODO pdf拆分,结果命名规则为原文件名-startPage_endPage.pdf
     * @Date 2022/2/16 10:20
     * @Param [sourceFile 要拆分的pdf文件, targetFile 结果输出目录, pageIndex 从哪里开始拆分, totalPages 总共拆出多少页]
     **/
    public static void splitPdfWithPageIndex(File sourceFile, String targetFile, Integer pageIndex, Integer totalPages) throws IOException {
        PDDocument document = PDDocument.load(sourceFile);
        PDDocument doc = new PDDocument();
        PDPage page = null;
        for (int index = pageIndex; index < pageIndex + totalPages; index++) {
            page = document.getPage(index - 1);
            doc.addPage(page);
        }
        doc.save(targetFile);
        document.close();
        doc.close();
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74

代码解析:
splitPdf:splitPdf的作用在于将一个pdf以pageStep为步长,按照没pageStep页拆分一个PDF的规则将整个PDF文件全部拆出。
splitPdfWithPageIndex:splitPdfWithPageIndex的作用在于将一个PDF文件从pageIndex位置开始,选totalPages页数据,生成一个新的PDF文件。

2.PDF切分

将PDF中某一部分内容拆分出来,这一部分的处理思路是先将PDF文件转换成图片,然后采用截图的方式将需要的内容截取出来生成新的图片,然后再将这个图片转换成PDF文件。
PDF转换图片的部分在java使用pdfbox将PDF转化为图片这一篇中有描述,感兴趣的可以去看看
代码如下(示例):

public class CutInfo {
    //页数
    private Integer pageNo;
    //Y轴切割起始坐标
    private Float start;
    //Y轴切终点坐标
    private Float end;
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
    public static BufferedImage splitPdfWithImage(PDDocument document, Integer page) throws IOException {
        PDFRenderer renderer = new PDFRenderer(document);
        BufferedImage bufferedImage = renderer.renderImage(page - 1, 5);
        return bufferedImage;
    }

    public static void cutPdfWithImage(PDDocument document, CutInfoEntity cutInfo) throws IOException {
        File file = new File(cutInfo.getOutFile());
        cutPdfWithImage(document, cutInfo.getPage(), cutInfo.getReceiptCount(), cutInfo.getCutRange().getStart(), cutInfo.getCutRange().getEnd(), file);
    }

    public static void cutPdfWithImage(PDDocument document, Integer page, Integer receiptCount, Integer start, Integer end, String outFile) throws IOException {
        File file = new File(outFile);
        cutPdfWithImage(document, page, receiptCount, start, end, file);
    }

    /**
     * @Description //TODO 纵向切分,切分内容为宽为PDF文件宽度,高为制动高度的矩形区域
     * @Date 2022/3/4 16:35
     * @Param [document 要切分的PDF文件
     * 			page表示要切分的内容在第几页
     * 			receiptCount 本工具哟用于拆分银行回单,一页可能有多张回单,这个参数表示一页PDF有多少张。主要用于计算切分后的内容转换成A4大小的PDF时的高度。
     * 			start 从x轴哪个位置开始切分
     * 			end 切到那个位置
     * 			outFile 输出文件
     * @return void
     **/
    public static void cutPdfWithImage(PDDocument document, Integer page, Integer receiptCount, Integer start, Integer end, File outFile) throws IOException {
        BufferedImage image = splitPdfWithImage(document, page);
        int subWidth = image.getWidth();
        int subHeight = end - start;

        image = image.getSubimage(0, start, subWidth, subHeight);

        PDDocument outDocument = new PDDocument();

        PDImageXObject imageXObject = LosslessFactory.createFromImage(outDocument, image);
        PDPage pdPage = new PDPage(PDRectangle.A4);

        PDPage documentPage = document.getPage(page - 1);
        PDResources resources = documentPage.getResources();
        Iterable<COSName> fontNames = resources.getFontNames();
        for (COSName cosName : fontNames) {
            PDFont font = resources.getFont(cosName);
            PDResources pdResources = pdPage.getResources();
            if (pdResources == null) {
                pdResources = new PDResources();
                pdPage.setResources(pdResources);
            }
            pdPage.getResources().put(cosName, font);
        }

        outDocument.addPage(pdPage);
        PDPageContentStream pageContentStream = new PDPageContentStream(outDocument, pdPage);
        float height = pdPage.getMediaBox().getHeight() / receiptCount;
        float y = pdPage.getMediaBox().getHeight() - height;
        pageContentStream.drawImage(imageXObject, 0, y, pdPage.getMediaBox().getWidth(), height);
        pageContentStream.close();

        if (!outFile.getParentFile().exists()) {
            outFile.getParentFile().mkdirs();
        }

        outDocument.save(outFile);
        outDocument.close();
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/1007880
推荐阅读
相关标签
  

闽ICP备14008679号