当前位置:   article > 正文

Python实现图片中文字提取(OCR)_chineseocr 提取备用字

chineseocr 提取备用字

用Python提取图片中的文字,用到的工具包有PIL,pytesseract,tesseract-ocr
注意:
库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程中的一些坑给大家参考。
(1)首先是PIL库安装,有的电脑可以直接从PYCHARM库里直接导入,但是大部分的电脑是安装不了的,可以采取两种方式一种是用pip install PIL这种方式一般比较慢,还有一种方法就是在PYCHARM库里面直接安装pillow-PIL安装成功后就不会报错了。
(2)然后就是pytesseract库的安装,在pycharm库里面可以直接搜索到然后安装。这两个库安装完成后运行代码还是会报错:‘tesseract is not installed or it’s not in your path’,原因是没有找到 Tesseract-OCR\tesseract.exe 的位置,需要先下载tesseract.exe具体安装参考:下载安装链接
安装完成后打开pytesseract源码查找 tesseract_cmd = ‘tesseract’,修改成红色方框里面是刚才安装的目录。软件安装路径
库安装好之后运行代码:

from PIL import Image

import pytesseract

images=Image.open('003.jpg')
print(images.size)
text=pytesseract.image_to_string(images)
print(text)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

结果:
在这里插入图片描述
在这里插入图片描述
如果要提取中文文字还需安装相关的新的库,把下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中。
下载链接:中文库下载
下载完之后运行代码:

import pytesseract
from PIL import Image

im_en = Image.open('003.jpg')
im_ch = Image.open('004.jpg')

print('========识别字母========')
print(pytesseract.image_to_string(im_en), '\n\n')

print('========识别中文========')
print(pytesseract.image_to_string(im_ch, lang='chi_sim'))

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

结果:
在这里插入图片描述
在这里插入图片描述
至此实现了用Python的工具包实现OCR字符提取的功能,包括中文和英文字符的提取,一个简单的小例子啦~~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/388466
推荐阅读
相关标签
  

闽ICP备14008679号