算法设计者

这个屌丝很懒，什么也没留下！

热门标签

article

三种方法，用Python轻松提取PDF中的全部图片

作者：算法设计者 | 2024-01-31 19:26:53

踩

pix.writepng(output)

作者 | 陈熹、刘早起

来源 | 早起Python

头图 | 下载于视觉中国

有时我们需要将一份或者多份PDF文件中的图片提取出来，如果采取在线的网站实现的话又担心图片泄漏，手动操作又觉得麻烦，其实用Python也可以轻松搞定！

今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有非常完美的方法，每种方法提取效率都不是百分之百，因此可以考虑用多种方法进行互补，主要将涉及：

基于 fitz 库和正则搜索提取图片
基于 pdf2image 库的两种方法提取图片

基于 fitz 库和正则搜索

fitz 是 pymupdf 的子模块，需要先用命令行安装 pymupdf：

1pip install pymupdf

但注意导入时使用 import fitz 导入模块!

下面的代码就利用 fitz 库提取图片需要通过正则匹配图片元素，将模板元素转化为像素后再以图片形式写出


 1import fitz
 2import re
 3import os
 4
 5file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
 6dir_path = r'C:\xxx' # 存放图片的文件夹
 7
 8def pdf2image1(path, pic_path):
 9    checkIM = r"/Subtype(?= */Image)"
10    pdf = fitz.open(path)
11    lenXREF = pdf._getXrefLength()
12    count = 1
13    for i in range(1, lenXREF):
14        text = pdf._getXrefString(i)
15        isImage = re.search(checkIM, text)
16        if not isImage:
17            continue
18        pix = fitz.Pixmap(pdf, i)
19        new_name = f"img_{count}.png"
20        pix.writePNG(os.path.join(pic_path, new_name))
21        count += 1
22        pix = None
23
24pdf2image1(file_path, dir_path)

运行提取示例文件后结果如下：

可以看到，有一些很小的色块也被提取成图片，那么怎么过滤掉它们呢？

有一个简单的方法是通过大小过滤，pix 像素在 fitz 库中存在一个重要的方法 pix.size 可以反映像素多少，简单的色素块该值较低，可以通过设置一个阈值过滤。以阈值 10000 为例过滤：


 1import fitz
 2import re
 3import os
 4
 5file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
 6dir_path = r'C:\xxx' # 存放图片的文件夹
 7
 8def pdf2image1(path, pic_path):
 9    checkIM = r"/Subtype(?= */Image)"
10    pdf = fitz.open(path)
11    lenXREF = pdf._getXrefLength()
12    count = 1
13    for i in range(1, lenXREF):
14        text = pdf._getXrefString(i)
15        isImage = re.search(checkIM, text)
16        if not isImage:
17            continue
18        pix = fitz.Pixmap(pdf, i)
19        if pix.size < 10000: # 在这里添加一处判断一个循环
20            continue # 不符合阈值则跳过至下
21        new_name = f"img_{count}.png"
22        pix.writePNG(os.path.join(pic_path, new_name))
23        count += 1
24        pix = None
25
26pdf2image1(file_path, dir_path)

可以看到，全部图片都被正常提取！

基于 pdf2image 库的两种方法

看名字就知道这个库的用处，官方文档：

https://www.cnpython.com/pypi/pdf2image

可以简单通过 pip install pdf2image 安装，但poppler才是真正起做用的转换器，因此需要额外安装和配置：

windows用户必须安装poppler for Windows，然后将bin/文件夹添加到PATH
Mac用户必须安装poppler for Mac

具体发挥作用的代码官方文档也给出了详细的说明：

那么我们就分别尝试这两种方法：


 1from pdf2image import convert_from_path,convert_from_bytes
 2import tempfile
 3from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
 4import os
 5
 6file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
 7dir_path = r'C:\xxx' # 存放图片的文件夹
 8
 9def pdf2image2(file_path, dir_path):
10    images = convert_from_path(file_path, dpi=200)
11    for image in images:
12        if not os.path.exists(dir_path):
13            os.makedirs(dir_path)
14        image.save(file_path + f'\img_{images.index(image)}.png', 'PNG')
15
16pdf2image2(file_path, dir_path)

可以成功提取图片。再试试第二种方法：


 1from pdf2image import convert_from_path,convert_from_bytes
 2import tempfile
 3from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
 4import os
 5
 6file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
 7dir_path = r'C:\xxx' # 存放图片的文件夹
 8
 9def pdf2image3(file_path, dir_path):
10    images = convert_from_bytes(open(file_path, 'rb').read())
11    for image in images:
12        if not os.path.exists(dir_path):
13            os.makedirs(dir_path)
14        image.save(file_path + f'\img_{images.index(image)}.png', 'PNG')
15
16pdf2image3(file_path, dir_path)

可以看到结果和之前一致，PDF中全部图片都被提取出来！

再补充一下。核心方法covert_from_bytes包含大量参数，可以自行修改。几个常用参数总结如下：

参数	意义
pdf_path	PDF 文档路径
dpi	图像质量（如果是学术期刊杂志常见 300dpi）
output_folder	将生成的图像写入文件夹（而不是直接写入内存）
first_page	起始转换页数
last_page	转换至哪一页
fmt	图像格式，可以指定为 png，默认为 ppm
thread_count	允许参与转换的线程数
userpw	PDF 的密码
output_file	输出文件名
poppler_path	指定 poppler 的安装路径，一开始配置好就无需指定

值得一提的是thread_count 参数，可以启动多线程会大大加快转换速度，尤其是 PDF 页面较多时。有兴趣的读者可以做尝试。

更多精彩推荐


☞科学“干饭”，AI 营养师教你
☞GitHub 标星超 26600，TiDB 社区运营的道与术！
☞区区几行Python代码，一分钟搞定一天工作量
☞告别手敲 SQL ？GPT-3 自动帮你写
点分享点收藏点点赞点在看

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/blog/article/detail/51679

推荐阅读

article
用 Python 制作自己的游戏 AI_python编写游戏ai
作者：禅与计算机程序设计艺术1.简介1.1游戏AI介绍在计算机游戏领域中，有着非常成熟且广泛使用的AI技术，比如AlphaGo和DotA2。那么为什么我们需要自己开发一个游戏AI呢？游戏AI可以提高游戏的竞技水平、增加玩家的娱乐体验。对于个... [详细]
赞
踩
article
Python zip函数详解（全）
做项目的时候，经常会看到zip这个函数，索性深入了解，方便之后的学习。_pythonzippythonzip目录前言1.zip函数2.实战展示前言做项目的时候，经常会看到zip这个函数，索性深入了解，方便之后的学习1.zip函数源码：zip... [详细]
赞
踩
article
Python Selenium3 自动化测试实战：构建高效测试项目
随着软件规模和复杂性的增加，手动测试变得越来越繁琐且容易出错。自动化测试通过脚本化测试用例，能够更迅速、一致地验证软件的功能和性能。Selenium是一款强大的自动化测试工具，而Python语言则因其简洁性和易读性而成为自动化测试的首选之一... [详细]
赞
踩
article
已解决ERROR: Failed building wheel for opencv-python-headless
已解决ERROR:Failedbuildingwheelforopencv-python-headlessFailedtobuildopencv-python-headlessERROR:Couldnotbuildwheelsforopen... [详细]
赞
踩
article
python Web框架要点---Django流程详解_python django
用于搭建Web应用程序免去不同Web应用相同代码部分的重复编写，只需关心Web应用核心的业务逻辑实现Django介绍Django，发音为[`dʒæŋɡəʊ]，是用python语言写的开源web开发框架，并遵循MVC设计。劳伦斯出版集团为了开... [详细]
赞
踩
article
Python 使用 Web3.py 进行 ETH 和代币转账
Python使用Web3_web3.pyweb3.py1、安装Web3.pypipinstallweb3.py12、注册Infura获得节点服务使用邮箱注册Infura账户后，创建一个项目，即可获得以太坊节点服务，进入设置即可看到链接的UR... [详细]
赞
踩
article
华为云云耀云服务器L实例评测｜Python Selenium加Chrome Driver构建UI自动化测试实践
UI自动化测试实践，随着云计算时代的进一步深入，越来越多的中小企业企业与开发者需要一款简单易用、高能高效的云计算基础设施产品来支撑自身业务运营和创新开发。基于这种需求，华为云焕新推出华为云云服务器实例新品。这边文章由我带大家走一遍华为云云耀... [详细]
赞
踩
article
【python selenium报错】selenium.common.exceptions.WebDriverException: Message: ＜html＞三种解决方案！
【pythonselenium报错】selenium.common.exceptions.WebDriverException:Message:三种解决方案！【pythonselenium报错】selenium.common.excepti... [详细]
赞
踩
article
Python 图形化界面基础篇：打开和关闭新窗口_tkinter 打开新窗口
在Python图形用户界面（GUI）应用程序中，创建和管理多个窗口是一项重要的任务。这些窗口可以用于不同的用途，例如显示附加信息、执行特定操作或以其他方式改善用户体验。在本文中，我们将深入研究如何使用Python的Tkinter库来打开和关... [详细]
赞
踩
article
【2023华为杯F题】强对流降水临近预报（Python&Matlab代码分享）
我国地域辽阔，自然条件复杂，因此灾害性天气种类繁多，地区差异大。其中，雷雨大风、冰雹、龙卷、短时强降水等强对流天气是造成经济损失、危害生命安全最严重的一类灾害性天气[1]。以2022年为例，我国强对流天气引发风雹灾害造成的死亡失踪人数和直接... [详细]
赞
踩
article
Python——jieba优秀的中文分词库（基础知识+实例）
优秀的中文分词库——jieba库_jiebajiebaHello，World！从去年开始学习Python，在长久的学习过程中，发现了许多有趣的知识，不断充实自己。今天我所写的内容也是极具趣味性，关于优秀的中文分词库——jieba库。... [详细]
赞
踩
article
python——绩点计算_python绩点计算
类型：字典。_python绩点计算python绩点计算绩点计算类型：字典描述平均绩点计算方法：(课程学分1绩点+课程学分2绩点+…+课程学分n*绩点)/(课程学分1+课程学分2+…+课程学分n)用户循环输入五分制成绩和课程学分，题目测试数据... [详细]
赞
踩
article
【Python】生成二维码
用tkinter做前端，通过qrcode模块，做出了一个根据网页生成二维码的小程序【Python】生成二维码创建了一个使用python创建二维码的程序。下面是生成的程序的图像。功能描述输入网址（URL）。输入二维码的名称。当单击QR码生成按... [详细]
赞
踩
article
VScode 中 Python 代码不高亮显示怎么办？_vscode的python语法不高亮
VScode中Python代码不高亮显示怎么办？_vscode的python语法不高亮vscode的python语法不高亮最近在用VScode写代码的时候，发现Python代码不高亮显示：这样用起来体验感不好，网上查询资料，可能存在的原因为... [详细]
赞
踩
article
【Python】python天气数据抓取与数据分析（源码+论文）【独一无二】_python天气数据分析论文
本项目包括四个核心部分：数据爬取、数据存储、数据分析和数据可视化。首先，利用Python编写的网络爬虫从专业的历史天气网站上爬取大连市从2011年至2023年的天气数据，包括日期、最高气温、最低气温和天气状况等信息。爬取过程中应用了requ... [详细]
赞
踩
article
【Python 零基础入门】函数
探索Python函数的核心概念，从基础的函数定义和调用到高阶函数和装饰器。为初学者提供了详尽的指导和实用示例，让你更深入地理解Python的强大功能。【Python零基础入门】函数【Python零基础入门】第五课函数【Python零基础入门... [详细]
赞
踩
article
Python 列表 sort()函数使用详解_python sort函数
sort()可以对列表进行「排序」_pythonsort函数pythonsort函数「作者主页」：士别三日wyx「作者简介」：CSDNtop100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「推荐专栏」：小白零基础《Python入... [详细]
赞
踩
article
python-opencv第七期：开运算与闭运算详解（上）
开门，意味着门的两个门板没有连通，对于外界是敞开的，对应“开”；而闭门，意味着门的两个门板连通到了一起，对于外界是关闭的状态，对应“闭”。_开运算开运算目录概要：正文部分：概念介绍：何谓“开”与“闭”：如何实现开运算与闭运算：应... [详细]
赞
踩
article
通俗易懂，十分钟读懂DES，详解DES加密算法原理，DES攻击手段以及3DES原理。Python DES实现源码
DES（DataEncryptionStandard）是一种对称加密算法。本文详细解释DES的算法原理，以及不安全的原因。附Python的实现源码。_des原理des原理文章目录1、什么是DES2、DES的基本概念3、DES的加密流程4、D... [详细]
赞
踩
article
【Python】numpy矩阵运算大全_python 矩阵
因为课程需要，第一次这么彻底地接触numpy。虽闻名已久，但是真正使用numpy才感受到它的强大，发现它尤其适合数据分析与处理。这里根据自己的使用经验简单总结一下numpy在矩阵运算中的应用，之后也会根据自己的实践经历不断更新。_pytho... [详细]
赞
踩

三种方法，用Python轻松提取PDF中的全部图片

基于 fitz 库和正则搜索

用 Python 制作自己的游戏 AI_python编写游戏ai

Python zip函数详解（全）

Python Selenium3 自动化测试实战：构建高效测试项目

已解决ERROR: Failed building wheel for opencv-python-headless

python Web框架要点---Django流程详解_python django

Python 使用 Web3.py 进行 ETH 和代币转账

华为云云耀云服务器L实例评测｜Python Selenium加Chrome Driver构建UI自动化测试实践

【python selenium报错】selenium.common.exceptions.WebDriverException: Message: ＜html＞三种解决方案！

Python 图形化界面基础篇：打开和关闭新窗口_tkinter 打开新窗口

【2023华为杯F题】强对流降水临近预报（Python&Matlab代码分享）

Python——jieba优秀的中文分词库（基础知识+实例）

python——绩点计算_python绩点计算

【Python】生成二维码

VScode 中 Python 代码不高亮显示怎么办？_vscode的python语法不高亮

【Python】python天气数据抓取与数据分析（源码+论文）【独一无二】_python天气数据分析论文

【Python 零基础入门】函数

Python 列表 sort()函数使用详解_python sort函数

python-opencv第七期：开运算与闭运算详解（上）

通俗易懂，十分钟读懂DES，详解DES加密算法原理，DES攻击手段以及3DES原理。Python DES实现源码

【Python】numpy矩阵运算大全_python 矩阵