赞
踩
环境
Python3
Python3的pillow、pytesseract包
可使用pip install pillow、pip install pytesseract命令安装
或者通过pycharm进行安装
识别引擎tesseract-ocr ,下载地址
代码
#-*- coding:utf-8 -*-
import pytesseract
from PIL import Image
# 使用pytesseract对英文进行识别,lang参数可省略
print(pytesseract.image_to_string(Image.open('textEng.png',lang='eng')))
# 使用pytesseract对中文(含英文,但识别率降低)进行识别
print(pytesseract.image_to_string(Image.open('textCh.png'), lang='chi_sim'))
该提取文字的功能对英文识别率还是可以的,但对中文稍差强人意,不过还是比手打的要方便。
报错及解决
1. FileNotFoundError:[WinError 2]系统找不到指定文件。
解决方法:
搜索文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径(tesseract文件的全路径,该文件在Tesseract-OCR下)。如下:
tesseract_cmd = 'tesseract'
改为
tesseract_cmd &
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。