pdf文档解析相关工具包_pdftabextract

作者：盐析白兔 | 2024-08-03 12:38:49

踩

pdftabextract

pdf文档解析相关工具包

pdf生成

fdfgen: 能够自动创建pdf文档，并填写信息

pdf表格解析

pdftabextract: 用于OCR识别后的表格信息解析，很强大
tabula-py: 直接将pdf中的表格信息转换为pandas的dataframe，有java和python两种版本代码
pdfx: 自动抽取出引用参考文献，并下载对应的pdf文件
invoice2data: 发票pdf信息抽取
camelot: pdf表格解析
pdfplumber: pdf表格解析
pdf文档信息抽取

pdf语义分割

PubLayNet:能够划分段落、识别表格、图片

pdf读取工具

PDFMiner：PDFMiner能获取页面中文本的准确位置，以及字体或行等其他信息。它还有一个PDF转换器，可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF，可以用于文本分析以外的其他用途。
PyPDF2：PyPDF 2是一个python PDF库，能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据，还可以将整个文件合并在一起。
ReportLab：ReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目，用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的，开源的，用Python编写的。该软件包每月下载5万多次，是标准Linux发行版的一部分，嵌入到许多产品中，并被选中为Wikipedia的打印/导出功能提供动力。

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】