赞
踩
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update
yum install tesseract
yum search tesseract 查看支持的语言包
yum install tesseract-langpack-eng 安装英语
示例: tesseract-eng(英语),tesseract-ara(阿拉伯语),tesseract–chi-sim(简体中文),tesseract-script-latn(拉丁文脚本),tesseract-script- deva(梵文脚本)等
pip install pytesseract
Tesseract是一个命令行程序,因此首先打开一个终端或命令提示符。该命令使用如下:
tesseract imagename outputbase [-l lang] [-psm pagesegmode][configfile...]
在名为’test.png’的图像上使用简体中文执行OCR并将结果保存到’out.txt’的基本用法是:
tesseract test.png out -l chi_sim
它甚至可以用于一次训练数据的多种语言,例如。英语和德语:
tesseract test.png out -l eng+deu
提示错误:
Error opening data file /usr/share/tesseract/4/tessdata/chi-sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi-sim'
Tesseract couldn't load any languages!
解决:
1.首先确认自己的tessdata文件夹里确实含有所用的语言’chi-sim’,
2.再看看该语言拼写是否有误,(我文件夹里的是chi_sim,命令行打成了‘chi-sim’ ==)
3.将TESSDATA_PREFIX环境变量设置为指向 tessdata 语言数据文件夹.
4.github上有全套的语言数据文件,链接如下:tessdata_fast ,可下载至自己的 tessdata 文件夹,
以上基本就能解决问题了。
生成test.txt文件就成功了,提示如下内容可忽略,
Tesseract Open Source OCR Engine v4.1.0-rc1-125-gac7e with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 182
Detected 76 diacritics
参考:
1.https://github.com/tesseract-ocr/tesseract/wiki
2. https://pypi.org/project/pytesseract/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。