赞
踩
用Python提取图片中的文字,用到的工具包有PIL,pytesseract,tesseract-ocr
注意:
库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程中的一些坑给大家参考。
(1)首先是PIL库安装,有的电脑可以直接从PYCHARM库里直接导入,但是大部分的电脑是安装不了的,可以采取两种方式一种是用pip install PIL这种方式一般比较慢,还有一种方法就是在PYCHARM库里面直接安装pillow-PIL安装成功后就不会报错了。
(2)然后就是pytesseract库的安装,在pycharm库里面可以直接搜索到然后安装。这两个库安装完成后运行代码还是会报错:‘tesseract is not installed or it’s not in your path’,原因是没有找到 Tesseract-OCR\tesseract.exe 的位置,需要先下载tesseract.exe具体安装参考:下载安装链接
安装完成后打开pytesseract源码查找 tesseract_cmd = ‘tesseract’,修改成红色方框里面是刚才安装的目录。
库安装好之后运行代码:
from PIL import Image
import pytesseract
images=Image.open('003.jpg')
print(images.size)
text=pytesseract.image_to_string(images)
print(text)
结果:
如果要提取中文文字还需安装相关的新的库,把下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中。
下载链接:中文库下载
下载完之后运行代码:
import pytesseract
from PIL import Image
im_en = Image.open('003.jpg')
im_ch = Image.open('004.jpg')
print('========识别字母========')
print(pytesseract.image_to_string(im_en), '\n\n')
print('========识别中文========')
print(pytesseract.image_to_string(im_ch, lang='chi_sim'))
结果:
至此实现了用Python的工具包实现OCR字符提取的功能,包括中文和英文字符的提取,一个简单的小例子啦~~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。