当前位置:   article > 正文

Centos7通过yum安装tesseract-OCR_centos7下载tesseract英文语言包

centos7下载tesseract英文语言包


如果本文解决了你的问题,可以点个免费的赞,谢谢

前言

OCR(optical character recognition,光学字符识别)是指直接将包含文本的图像识别为计算机文字(计算机黑白点阵)的技术。

tesseract是github上的OCR开源库,本文章将教你如何在Centos7上安装Tesseract。

相关参考资料

以下是关于Tesseract的常用网址
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
官方网站:https://github.com/tesseract-ocr/tesseract
官方文档:https://github.com/tesseract-ocr/tessdoc
语言包地址:https://github.com/tesseract-ocr/tessdata

本篇文章文章参考以下连接
https://tesseract-ocr.github.io/tessdoc/InstallationOpenSuse.html

一、前期准备

更新当前系统版本

yum updata -y

安装yum包管理工具,大部分系统未安装

yum install yum-utils -y

二、安装tesseract

导入公钥

rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key

增加yum源

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/

安装tessceract

yum install tesseract -y

安装语言包

yum install tesseract-langpack-deu -y

安装中文语言包

yum install tesseract-langpack-chi-sim tesseract-langpack-chi-sim-vert -y

如果需要其他语言包,安装包的格式为tesseract-langpack-xxx

三、测试一下结果

查看当前的版本状态

tesseract -v
tesseract --version

结果如下

tesseract 4.1.3
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
Found AVX2
Found AVX
Found FMA
Found SSE

查看支持的语言

tesseract --list-langs

结果带有chi_sim chi_sim_vert 表示安装成功

List of available languages (5):
chi_sim
chi_sim_vert
deu
eng
osd

四、简单排错

1.yum-config-manager: 未找到命令

请参考上方前期准备

2.tesseract --version中的版本中没有或缺少libjpeg,libpng,zlib,libwebp

运行命令安装相关软件包

yum -y install libjpeg* libpng* libtiff*

3.相关软件本地yum源

为了方便离线安装,特地做了一个本地yum源的包,也可以直接安装rpm包。
Centos7下tesseract-ocr相关本地yum源安装包

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/620063
推荐阅读
相关标签
  

闽ICP备14008679号