当前位置:   article > 正文

ocr字符识别安装 tesseract_tesseract-lang

tesseract-lang
1.配置源,对于CentOS 7,以root身份运行以下命令:
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update
yum install tesseract 
  • 1
  • 2
  • 3
  • 4
2.安装支持的语言包
yum search tesseract   查看支持的语言包
yum install tesseract-langpack-eng     安装英语
  • 1
  • 2

示例: tesseract-eng(英语),tesseract-ara(阿拉伯语),tesseract–chi-sim(简体中文),tesseract-script-latn(拉丁文脚本),tesseract-script- deva(梵文脚本)等

3.python安装 pytesseract 模块
pip install pytesseract
  • 1
4. 运行tesseract

Tesseract是一个命令行程序,因此首先打开一个终端或命令提示符。该命令使用如下:

 tesseract imagename outputbase [-l lang] [-psm pagesegmode][configfile...]
  • 1

在名为’test.png’的图像上使用简体中文执行OCR并将结果保存到’out.txt’的基本用法是:

tesseract test.png out -l chi_sim 
  • 1

它甚至可以用于一次训练数据的多种语言,例如。英语和德语:

tesseract test.png out -l eng+deu
  • 1

提示错误:

Error opening data file /usr/share/tesseract/4/tessdata/chi-sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi-sim'
Tesseract couldn't load any languages!
  • 1
  • 2
  • 3
  • 4

解决:
1.首先确认自己的tessdata文件夹里确实含有所用的语言’chi-sim’,
2.再看看该语言拼写是否有误,(我文件夹里的是chi_sim,命令行打成了‘chi-sim’ ==)
3.将TESSDATA_PREFIX环境变量设置为指向 tessdata 语言数据文件夹.
4.github上有全套的语言数据文件,链接如下:tessdata_fast ,可下载至自己的 tessdata 文件夹,
以上基本就能解决问题了。
生成test.txt文件就成功了,提示如下内容可忽略,

Tesseract Open Source OCR Engine v4.1.0-rc1-125-gac7e with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 182
Detected 76 diacritics
  • 1
  • 2
  • 3
  • 4

参考:
1.https://github.com/tesseract-ocr/tesseract/wiki
2. https://pypi.org/project/pytesseract/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/620065
推荐阅读
相关标签
  

闽ICP备14008679号