2024年Python最新在Python中使用PDF：阅读和拆分_fpdf库分割pdf文件_pypdf2 2024

作者：人工智能uu | 2024-06-27 08:00:13

踩

pypdf2 2024

本文是一个小系列的开头，将介绍这些有用的Python库。在第一部分中，我们将重点介绍现有PDF的操作。您将学习如何阅读和提取内容（文本和图像），旋转单个页面以及将文档拆分为单独的页面。第二部分将介绍如何根据叠加层添加水印。第三部分将专注于编写/创建PDF，还将包括删除和重新组合单个页面到新文档。

工具和库

Python相关的PDF工具，模块和库的可用解决方案范围有点令人困惑，需要花一点时间来弄清楚什么是什么，以及哪些项目是持续维护的。根据我们的研究，这些是目前最新的方案：

PyPDF2：这是一个Python库，用于提取文档信息和内容，逐页拆分文档，合并文档，裁剪页面和添加水印。 PyPDF2支持未加密和加密的文档。

PDFMiner：完全用Python编写，适用于Python 2.4。对于Python 3，请使用克隆包PDFMiner.six。这两个包都允许您解析，分析和转换PDF文档。包括对PDF 1.7以及CJK语言（中文，日文和韩文）以及各种字体类型（Type1，TrueType，Type3和CID）的支持。

PDFQuery：它将自己描述为“一个快速且友好的PDF抓取库”，它作为PDFMiner，lxml和pyquery的包装器实现。它的设计目标是“用尽可能少的代码可靠地从PDF集合中提取数据。”

tabula-py：它是tabula-java的简单Python包装器，可以从PDF中读取表并将它们转换为Pandas DataFrames。它还允许您将PDF文件转换为CSV / TSV / JSON文件。

pdflib for Python：Poppler库的扩展，为它提供Python绑定。它允许您解析，分析和转换PDF文档。不要与其同名的商业吊坠相混淆。

PyFPDF：用于在Python下生成PDF文档的库。从FPDF PHP库移植，一个众所周知的PDFlib扩展替换，包含许多示例，脚本和衍生产品。

PDFTables：一种商业服务，提供从PDF文档中提取的表格。提供API以便PDFTable可以用作SAAS。

PyX - Python图形包：PyX是一个用于创建PostScript，PDF和SVG文件的Python包。它结合了PostScript绘图模型的抽象和TeX / LaTeX接口。这些基元构建了复杂的任务，例如以发布就绪质量创建2D和3D图。

ReportLab：一个雄心勃勃的工业级图书馆，主要致力于精确创建PDF文档。可作为开源版本以及名为ReportLab PLUS的商业增强版本免费提供。

PyMuPDF（又名“fitz”）：MuPDF的Python绑定，它是一个轻量级的PDF和XPS查看器。该库可以访问PDF，XPS，OpenXPS，epub，漫画和小说书籍格式的文件，并以其顶级性能和高渲染质量而闻名。

pdfrw：一种基于Python的纯PDF解析器，用于读写PDF。它忠实地再现了矢量格式而没有光栅化。与ReportLab结合使用，有助于在使用ReportLab创建的新PDF中重复使用现有PDF的部分内容。

下面我们将重点介绍PyPDF2和PyMuPDF，并解释如何以最简单的方式提取文本和图像。为了理解PyPDF2的用法，官方文档和其他资源提供的大量示例的组合。相比之下，官方的PyMuPDF文档更清晰，使用库的速度要快得多。

用PyPDF2提取文档

PyPDF2可以作为常规软件包安装，也可以使用pip3（适用于Python3）安装。这里的测试基于即将推出的Debian GNU / Linux版本10“Buster”的软件包。 Debian软件包的名称是python3-pypdf2。

下面的代码首先导入PdfFileReader类，然后适用这个类打开文件，用getDocumentInfo() 方法来提取文档信息，包括页数和首页内容。

请注意PyPDF2页码计数从0开始，这也是为什么pdf.getPage(0)函数可以获取文件的第一页。最终，提取到的信息被打印到了stdout。

使用PyMuPDF提取文本

PyMuPDF可从PyPi网站获得，您可以在终端中使用以下命令安装包：

显示文档信息，打印页数和提取PDF文档的文本的方式与PyPDF2类似（参见清单2）。要导入的模块名为fitz，并返回到PyMuPDF的先前名称。

PyMuPDF的优点在于它保持原始文档结构的完整性 - 带有换行符的整个段落保留在PDF文档中。

使用PyMuPDF从PDF中提取图像

PyMuPDF使用getPageImageList（）方法简化了从PDF文档中提取图像的过程。下面的代码来源于PyMuPDF wiki页面的示例，并逐页提取并保存PDF中的所有图像作为PNG文件。如果图像具有CMYK颜色空间，则首先将其转换为RGB。

在400页PDF上运行这个Python脚本，它在不到3秒的时间内提取了117个图像，这是惊人的。各个图像以PNG格式存储。为了保持原始图像格式和大小，而不是转换为PNG，请查看PyMuPDF wiki中脚本的扩展版本。

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

2024年Python最新在Python中使用PDF：阅读和拆分_fpdf库分割pdf文件_pypdf2 2024

最后

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/761779