当前位置:   article > 正文

Java 读取PDF中的表格_spire.pdf.jar

spire.pdf.jar

一、概述

本文以Java示例展示读取PDF中的表格的方法。这里导入Spire.PDF for Javah中的jar包,并使用其提供的相关及方法来实现获取表格中的文本内容。下表中整理了本次代码使用到的主要类、方法及解释,供参考:

类型描述
PdfDocument ClassRepresents a pdf document model.
PdfDocument. loadFromFile (string filename) MethodLoads a PDF document.
PdfTableExtractor ClassRepresents the PDF table extractor.
PdfTable ClassDefines a PDF table.
PdfTableExtractor. extractTable (int pageIndex) MethodExtracts table from page.
PdfTable.getText(int rowIndex,int columnIndex) MethodGets Text in cell.
FileWriter. write() MethodSaves extracted text in table to a .txt file.

​二、环境配置

  • IntelliJ IDEA 2018(JDK 1.8.0)
  • PDF 测试文档
  • PDF Jar包:Spire.PDF for Java Version: 4.10.2

Jar包的两种导入方法

1. 手动导入

将jar包下载到本地,解压。然后执行如下步骤来手动导入:​

 

 2. Maven仓库下载导入

如果使用maven,需在pom.xml中配置maven路径,指定依赖,如下:

  1. <repositories>
  2. <repository>
  3. <id>com.e-iceblue</id>
  4. <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
  5. </repository>
  6. </repositories>
  7. <dependencies>
  8. <dependency>
  9. <groupId>e-iceblue</groupId>
  10. <artifactId>spire.pdf</artifactId>
  11. <version>4.10.2</version>
  12. </dependency>
  13. </dependencies>

三、读取PDF中的表格

  1. import com.spire.pdf.*;
  2. import com.spire.pdf.utilities.PdfTable;
  3. import com.spire.pdf.utilities.PdfTableExtractor;
  4. import java.io.FileWriter;
  5. import java.io.IOException;
  6. public class ExtractTable {
  7. public static void main(String[] args)throws IOException {
  8. //加载PDF文档
  9. PdfDocument pdf = new PdfDocument();
  10. pdf.loadFromFile("test.pdf");
  11. //创建StringBuilder类的实例
  12. StringBuilder builder = new StringBuilder();
  13. //抽取表格
  14. PdfTableExtractor extractor = new PdfTableExtractor(pdf);
  15. PdfTable[] tableLists ;
  16. for (int page = 0; page < pdf.getPages().getCount(); page++)
  17. {
  18. tableLists = extractor.extractTable(page);
  19. if (tableLists != null && tableLists.length > 0)
  20. {
  21. for (PdfTable table : tableLists)
  22. {
  23. int row = table.getRowCount();
  24. int column = table.getColumnCount();
  25. for (int i = 0; i < row; i++)
  26. {
  27. for (int j = 0; j < column; j++)
  28. {
  29. String text = table.getText(i, j);
  30. builder.append(text+" ");
  31. }
  32. builder.append("\r\n");
  33. }
  34. }
  35. }
  36. }
  37. //将提取的表格内容写入txt文档
  38. FileWriter fileWriter = new FileWriter("ExtractedTable.txt");
  39. fileWriter.write(builder.toString());
  40. fileWriter.flush();
  41. fileWriter.close();
  42. }
  43. }

表格内容读取结果:

注意事项:

1.注意使用的PDF Jar包版本为4.10.2,低于此版本的jar包不支持读取表格;

2.代码中的文件路径为 F:\IDEAProject\Table_PDF\test.pdf 和F:\IDEAProject\Table_PDF\ExtractedTable.txt , 文件路径可自定义为其他路径。

—End—

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/206128
推荐阅读
相关标签
  

闽ICP备14008679号