赞
踩
概述
一般来说,我们无法对PDF文档格式的内容进行修改编辑,但当我们确有此需求时,可通过提取文本内容的方式来实现。本文就将介绍如何通过Java代码来提取PDF文档中的文本内容。
此教程用到的第三方控件是Free Spire.PDF for Java(免费版)。根据不同需求,它可以支持以下三方面的提取功能。提取PDF文档中的所有文本内容
提取PDF指定页面的文本内容
提取PDF指定区域的文本内容
Jar包的获取及导入
在运行代码前,需将Free Spire.PDF for Java控件中的Jar包导入IDEA中。导入方式有两种:其一,在官网上下载产品包,解压后将lib文件夹下的Spire.Pdf.jar手动导入IDEA;其二,在IDEA中创建一个Maven项目,然后在pom.xml文件中键入以下代码,最后点击“Import Changes”即可。
com.e-iceblue
http://repo.e-iceblue.cn/repository/maven-public/
e-iceblue
spire.pdf.free
3.9.0
示例代码
示例1 提取PDF文档中的所有文本内容import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class ExtractAllText {
public static void main(String[] args) {
//创建PdfDocument实例
PdfDocument doc=ne
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。