当前位置:   article > 正文

利用pytesseract进行图片文字识别_pytesseract识别文字

pytesseract识别文字

pytesseract是基于Python的OCR工具, 底层使用的是Google的Tesseract-OCR 引擎,支持识别图片中的文字,支持jpeg, png, gif, bmp, tiff等图片格式。

安装

pip install pytesseract 

使用

这里只简单介绍识别图中文字并输出字符串,有兴趣的同学可以自行探索更多的方法。

  1. from PIL import Image
  2. from pytesseract import *
  3. img = Image.open('test.png')
  4. code = pytesseract.image_to_string(img)

识别图片和结果:

这种方法比较适合简单的验证码的识别。为了提高识别的成功率,图片最好配合PIL库,进行二值化和降噪的预处理。

在使用时可能会遇到TesseractNotFoundError,这是因为pytesseract需要调用tesseract.exe的接口来进行图片的识别。

需要先安装Tesseract-OCR的应用:https://github.com/tesseract-ocr/tesseract

然后修改pytesseract.py的tesseract_cmd

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/673792
推荐阅读
相关标签
  

闽ICP备14008679号