python读取pdf里的文字、图片以及图片里的文字_python 读pdf中图片

作者：数据灵魂2 | 2024-01-31 19:17:36

踩

python 读pdf中图片

import pdfplumber
import fitz
from PIL import Image
from aip import AipOcr
import re
import threading
import xlwt
import numpy as np
import pandas as pd

# ##提取pdf文档的文字写入运动报告.txt中

pdf_name=r'C:\Users\Pert\Desktop\公司文档\食物\中国食物成分表 标准版 第6版 第1册_14452917_.pdf'

# f=open('运动报告.txt','w',encoding="utf-8")
# pdf=pdfplumber.open(pdf_name)

# page_count = len(pdf.pages)
# print(page_count)  # 得到页数

# for page in pdf.pages:
#     # print('---------- 第[%d]页 ----------' % page.page_number)
#     # # 获取当前页面的全部文本信息，包括表格中的文字
#     # print(page.extract_text())
#     f.write(str(page.extract_text()))
  
# f.close()
# pdf.close()




class Acqire:
	def __init__(self):
		self.APP_ID = '24414511'
		self.API_KEY = 'OUogI3CydVfG54yeK4NwnYQt'
		self.SECRET_KEY = 'swhZn760fvuTAvppUHbCC3CAkRK7Xngw'

	### 改变图片尺寸
	def ResizeImage(self,path2):
	    filein = path2
	    fileout = path2
	    width = 1600
	    height = 2000
	    img = Image.open(filein)
	    out = img.resize((width, height),Image.ANTIALIAS)
	    out.save(fileout)
	    img.close()

	def get_file_content(self,filepath,num):
		def printI():
		    self.ResizeImage(filepath)
		    client = AipOcr(self.APP_ID,self.API_KEY,self.SECRET_KEY)
		    with open(filepath, 'rb') as fp:
		        image = fp.read()
		    fp.close()
		     # 定义参数变量
		    options = {
		        # 定义图像方向
		        'detect-direction': 'true',
		        'language-type': 'CHN_ENG'
		    }
		    result = client.general(image, options)
		    fp=open('txt/{}.txt'.format(num),'w')
		    try:
		    	for word in result['words_result']:
			    	fp.write(word['words'])
			    	fp.write('\n')
		    except:
		    	print(num)
		    fp.close()
		return printI

	def func(self,doc,i):
		imglist = doc.getPageImageList(i)
		for j, img in enumerate(imglist):
			xref = img[0]
			pix = fitz.Pixmap(doc, xref)   # make pixmap from image
			if pix.n - pix.alpha < 4:      # can be saved as PNG
				pix.writePNG("image/p%s-%s.png" % (i+1, j+1))
			else:
				pix0 = fitz.Pixmap(fitz.csRGB, pix)
				pix0.writePNG("image/p%s-%s.png" % (i+1, j+1))
				pix0 = None                # free Pixmap resources
			pix = None                     # free Pixmap resources


######提取pdf里面的图片
doc=fitz.open(pdf_name)
print(len(doc))
for i in range(len(doc)):
	locals()['thread_'+str(i)]=threading.Thread(target = Acqire().func(doc,i))
	locals()['thread_'+str(i)].start()

######识别图片里的文字
x=6
filepath='img/p{}-1.png'.format(x)
locals()['thread_'+str(x)]=threading.Thread(target = Acqire().get_file_content(filepath,x))
locals()['thread_'+str(x)].start()
locals()['thread_'+str(x)].join()
doc.close()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/blog/article/detail/51601

推荐阅读

article
用 Python 制作自己的游戏 AI_python编写游戏ai
作者：禅与计算机程序设计艺术1.简介1.1游戏AI介绍在计算机游戏领域中，有着非常成熟且广泛使用的AI技术，比如AlphaGo和DotA2。那么为什么我们需要自己开发一个游戏AI呢？游戏AI可以提高游戏的竞技水平、增加玩家的娱乐体验。对于个... [详细]
赞
踩
article
Python zip函数详解（全）
做项目的时候，经常会看到zip这个函数，索性深入了解，方便之后的学习。_pythonzippythonzip目录前言1.zip函数2.实战展示前言做项目的时候，经常会看到zip这个函数，索性深入了解，方便之后的学习1.zip函数源码：zip... [详细]
赞
踩
article
Python Selenium3 自动化测试实战：构建高效测试项目
随着软件规模和复杂性的增加，手动测试变得越来越繁琐且容易出错。自动化测试通过脚本化测试用例，能够更迅速、一致地验证软件的功能和性能。Selenium是一款强大的自动化测试工具，而Python语言则因其简洁性和易读性而成为自动化测试的首选之一... [详细]
赞
踩
article
已解决ERROR: Failed building wheel for opencv-python-headless
已解决ERROR:Failedbuildingwheelforopencv-python-headlessFailedtobuildopencv-python-headlessERROR:Couldnotbuildwheelsforopen... [详细]
赞
踩
article
python Web框架要点---Django流程详解_python django
用于搭建Web应用程序免去不同Web应用相同代码部分的重复编写，只需关心Web应用核心的业务逻辑实现Django介绍Django，发音为[`dʒæŋɡəʊ]，是用python语言写的开源web开发框架，并遵循MVC设计。劳伦斯出版集团为了开... [详细]
赞
踩
article
Python 使用 Web3.py 进行 ETH 和代币转账
Python使用Web3_web3.pyweb3.py1、安装Web3.pypipinstallweb3.py12、注册Infura获得节点服务使用邮箱注册Infura账户后，创建一个项目，即可获得以太坊节点服务，进入设置即可看到链接的UR... [详细]
赞
踩
article
华为云云耀云服务器L实例评测｜Python Selenium加Chrome Driver构建UI自动化测试实践
UI自动化测试实践，随着云计算时代的进一步深入，越来越多的中小企业企业与开发者需要一款简单易用、高能高效的云计算基础设施产品来支撑自身业务运营和创新开发。基于这种需求，华为云焕新推出华为云云服务器实例新品。这边文章由我带大家走一遍华为云云耀... [详细]
赞
踩
article
【python selenium报错】selenium.common.exceptions.WebDriverException: Message: ＜html＞三种解决方案！
【pythonselenium报错】selenium.common.exceptions.WebDriverException:Message:三种解决方案！【pythonselenium报错】selenium.common.excepti... [详细]
赞
踩
article
Python 图形化界面基础篇：打开和关闭新窗口_tkinter 打开新窗口
在Python图形用户界面（GUI）应用程序中，创建和管理多个窗口是一项重要的任务。这些窗口可以用于不同的用途，例如显示附加信息、执行特定操作或以其他方式改善用户体验。在本文中，我们将深入研究如何使用Python的Tkinter库来打开和关... [详细]
赞
踩
article
【2023华为杯F题】强对流降水临近预报（Python&Matlab代码分享）
我国地域辽阔，自然条件复杂，因此灾害性天气种类繁多，地区差异大。其中，雷雨大风、冰雹、龙卷、短时强降水等强对流天气是造成经济损失、危害生命安全最严重的一类灾害性天气[1]。以2022年为例，我国强对流天气引发风雹灾害造成的死亡失踪人数和直接... [详细]
赞
踩
article
Python——jieba优秀的中文分词库（基础知识+实例）
优秀的中文分词库——jieba库_jiebajiebaHello，World！从去年开始学习Python，在长久的学习过程中，发现了许多有趣的知识，不断充实自己。今天我所写的内容也是极具趣味性，关于优秀的中文分词库——jieba库。... [详细]
赞
踩
article
python——绩点计算_python绩点计算
类型：字典。_python绩点计算python绩点计算绩点计算类型：字典描述平均绩点计算方法：(课程学分1绩点+课程学分2绩点+…+课程学分n*绩点)/(课程学分1+课程学分2+…+课程学分n)用户循环输入五分制成绩和课程学分，题目测试数据... [详细]
赞
踩
article
【Python】生成二维码
用tkinter做前端，通过qrcode模块，做出了一个根据网页生成二维码的小程序【Python】生成二维码创建了一个使用python创建二维码的程序。下面是生成的程序的图像。功能描述输入网址（URL）。输入二维码的名称。当单击QR码生成按... [详细]
赞
踩
article
VScode 中 Python 代码不高亮显示怎么办？_vscode的python语法不高亮
VScode中Python代码不高亮显示怎么办？_vscode的python语法不高亮vscode的python语法不高亮最近在用VScode写代码的时候，发现Python代码不高亮显示：这样用起来体验感不好，网上查询资料，可能存在的原因为... [详细]
赞
踩
article
【Python】python天气数据抓取与数据分析（源码+论文）【独一无二】_python天气数据分析论文
本项目包括四个核心部分：数据爬取、数据存储、数据分析和数据可视化。首先，利用Python编写的网络爬虫从专业的历史天气网站上爬取大连市从2011年至2023年的天气数据，包括日期、最高气温、最低气温和天气状况等信息。爬取过程中应用了requ... [详细]
赞
踩
article
【Python 零基础入门】函数
探索Python函数的核心概念，从基础的函数定义和调用到高阶函数和装饰器。为初学者提供了详尽的指导和实用示例，让你更深入地理解Python的强大功能。【Python零基础入门】函数【Python零基础入门】第五课函数【Python零基础入门... [详细]
赞
踩
article
Python 列表 sort()函数使用详解_python sort函数
sort()可以对列表进行「排序」_pythonsort函数pythonsort函数「作者主页」：士别三日wyx「作者简介」：CSDNtop100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「推荐专栏」：小白零基础《Python入... [详细]
赞
踩
article
python-opencv第七期：开运算与闭运算详解（上）
开门，意味着门的两个门板没有连通，对于外界是敞开的，对应“开”；而闭门，意味着门的两个门板连通到了一起，对于外界是关闭的状态，对应“闭”。_开运算开运算目录概要：正文部分：概念介绍：何谓“开”与“闭”：如何实现开运算与闭运算：应... [详细]
赞
踩
article
通俗易懂，十分钟读懂DES，详解DES加密算法原理，DES攻击手段以及3DES原理。Python DES实现源码
DES（DataEncryptionStandard）是一种对称加密算法。本文详细解释DES的算法原理，以及不安全的原因。附Python的实现源码。_des原理des原理文章目录1、什么是DES2、DES的基本概念3、DES的加密流程4、D... [详细]
赞
踩
article
【Python】numpy矩阵运算大全_python 矩阵
因为课程需要，第一次这么彻底地接触numpy。虽闻名已久，但是真正使用numpy才感受到它的强大，发现它尤其适合数据分析与处理。这里根据自己的使用经验简单总结一下numpy在矩阵运算中的应用，之后也会根据自己的实践经历不断更新。_pytho... [详细]
赞
踩

python读取pdf里的文字、图片以及图片里的文字_python 读pdf中图片

用 Python 制作自己的游戏 AI_python编写游戏ai

Python zip函数详解（全）

Python Selenium3 自动化测试实战：构建高效测试项目

已解决ERROR: Failed building wheel for opencv-python-headless

python Web框架要点---Django流程详解_python django

Python 使用 Web3.py 进行 ETH 和代币转账

华为云云耀云服务器L实例评测｜Python Selenium加Chrome Driver构建UI自动化测试实践

【python selenium报错】selenium.common.exceptions.WebDriverException: Message: ＜html＞三种解决方案！

Python 图形化界面基础篇：打开和关闭新窗口_tkinter 打开新窗口

【2023华为杯F题】强对流降水临近预报（Python&Matlab代码分享）

Python——jieba优秀的中文分词库（基础知识+实例）

python——绩点计算_python绩点计算

【Python】生成二维码

VScode 中 Python 代码不高亮显示怎么办？_vscode的python语法不高亮

【Python】python天气数据抓取与数据分析（源码+论文）【独一无二】_python天气数据分析论文

【Python 零基础入门】函数

Python 列表 sort()函数使用详解_python sort函数

python-opencv第七期：开运算与闭运算详解（上）

通俗易懂，十分钟读懂DES，详解DES加密算法原理，DES攻击手段以及3DES原理。Python DES实现源码

【Python】numpy矩阵运算大全_python 矩阵