Java工具库系列（二十）：Apache PDFBox

作者：笔触狂放9 | 2024-08-16 09:45:31

踩

apache pdfbox

Java工具库系列（二十）：Apache PDFBox

在Java开发中，处理PDF文档是一项常见的需求。Apache PDFBox 是一个强大的开源库，专门用于创建、操作和提取PDF文档内容。本文将介绍 Apache PDFBox 的核心功能及其使用方法，帮助你在项目中更高效地处理PDF文档。

一、Apache PDFBox 简介

Apache PDFBox 是 Apache 软件基金会下的一个开源Java库，用于处理PDF文档。PDFBox 提供了丰富的API，用于创建新的PDF文档、修改现有的PDF文档以及从PDF文档中提取内容。PDFBox 的主要特性包括：

创建和修改PDF文档
提取文本和图像
处理表单和注释
合并和拆分PDF文档

二、Apache PDFBox 的安装

要在项目中使用 Apache PDFBox，你需要在项目的构建工具中添加 PDFBox 的依赖。例如，如果你使用 Maven，你可以在 pom.xml 文件中添加以下依赖：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
</dependency>
1
2
3
4
5

对于 Gradle，你可以添加以下内容到 build.gradle 文件：

implementation 'org.apache.pdfbox:pdfbox:2.0.24'
1

三、Apache PDFBox 的核心功能

1. 创建PDF文档

以下示例展示了如何使用 PDFBox 创建一个简单的 PDF 文档，并在其中添加文本内容。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDType1Font;

import java.io.IOException;

public class CreatePDFExample {
    public static void main(String[] args) {
        PDDocument document = new PDDocument();
        PDPage page = new PDPage();
        document.addPage(page);

        try (PDPageContentStream contentStream = new PDPageContentStream(document, page)) {
            contentStream.beginText();
            contentStream.setFont(PDType1Font.HELVETICA, 12);
            contentStream.newLineAtOffset(100, 700);
            contentStream.showText("Hello, PDFBox!");
            contentStream.endText();
        } catch (IOException e) {
            e.printStackTrace();
        }

        try {
            document.save("example.pdf");
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

2. 读取PDF文档

以下示例展示了如何使用 PDFBox 从现有的 PDF 文档中提取文本内容。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class ReadPDFExample {
    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load(new File("example.pdf"))) {
            PDFTextStripper pdfStripper = new PDFTextStripper();
            String text = pdfStripper.getText(document);
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

3. 修改PDF文档

以下示例展示了如何使用 PDFBox 修改现有的 PDF 文档，并在其中添加新的文本内容。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDType1Font;

import java.io.File;
import java.io.IOException;

public class ModifyPDFExample {
    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load(new File("example.pdf"))) {
            PDPage page = document.getPage(0);

            try (PDPageContentStream contentStream = new PDPageContentStream(document, page, PDPageContentStream.AppendMode.APPEND, true)) {
                contentStream.beginText();
                contentStream.setFont(PDType1Font.HELVETICA_BOLD, 12);
                contentStream.newLineAtOffset(100, 650);
                contentStream.showText("Added text using PDFBox");
                contentStream.endText();
            }

            document.save("modified_example.pdf");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

4. 提取图像

以下示例展示了如何使用 PDFBox 从 PDF 文档中提取图像。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;

public class ExtractImageExample {
    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load(new File("example.pdf"))) {
            PDPage page = document.getPage(0);
            Iterable<PDImageXObject> images = page.getResources().getXObjectNames(PDImageXObject.class);

            int imageNumber = 1;
            for (PDImageXObject image : images) {
                BufferedImage bImage = image.getImage();
                ImageIO.write(bImage, "png", new File("image" + imageNumber + ".png"));
                imageNumber++;
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

5. 合并和拆分PDF文档

以下示例展示了如何使用 PDFBox 合并和拆分 PDF 文档。

合并PDF文档

import org.apache.pdfbox.multipdf.PDFMergerUtility;

import java.io.File;
import java.io.IOException;

public class MergePDFExample {
    public static void main(String[] args) {
        PDFMergerUtility merger = new PDFMergerUtility();
        merger.addSource("example1.pdf");
        merger.addSource("example2.pdf");
        merger.setDestinationFileName("merged_example.pdf");

        try {
            merger.mergeDocuments(null);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

拆分PDF文档

import org.apache.pdfbox.multipdf.Splitter;
import org.apache.pdfbox.pdmodel.PDDocument;

import java.io.File;
import java.io.IOException;
import java.util.List;

public class SplitPDFExample {
    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load(new File("merged_example.pdf"))) {
            Splitter splitter = new Splitter();
            List<PDDocument> pages = splitter.split(document);

            int pageNumber = 1;
            for (PDDocument page : pages) {
                page.save("split_page_" + pageNumber + ".pdf");
                pageNumber++;
                page.close();
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

四、总结

Apache PDFBox 是一个功能强大的PDF处理库，通过提供丰富的API和实用方法，极大地简化了Java应用程序中PDF文档的处理。在本篇文章中，我们介绍了PDFBox的核心功能和使用方法。在接下来的文章中，我们将继续探讨更多的Java工具库，帮助你在开发过程中事半功倍。

如果你有任何问题或建议，欢迎在评论区留言，我们将会一一解答。祝大家编码愉快！

敬请期待下一篇文章，我们将详细介绍另一个强大的Java工具库。

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】