赞
踩
OCR(optical character recognition,光学字符识别)是指直接将包含文本的图像识别为计算机文字(计算机黑白点阵)的技术。
tesseract是github上的OCR开源库,本文章将教你如何在Centos7上安装Tesseract。
以下是关于Tesseract的常用网址
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
官方网站:https://github.com/tesseract-ocr/tesseract
官方文档:https://github.com/tesseract-ocr/tessdoc
语言包地址:https://github.com/tesseract-ocr/tessdata
本篇文章文章参考以下连接
https://tesseract-ocr.github.io/tessdoc/InstallationOpenSuse.html
更新当前系统版本
yum updata -y
安装yum包管理工具,大部分系统未安装
yum install yum-utils -y
导入公钥
rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
增加yum源
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
安装tessceract
yum install tesseract -y
安装语言包
yum install tesseract-langpack-deu -y
安装中文语言包
yum install tesseract-langpack-chi-sim tesseract-langpack-chi-sim-vert -y
如果需要其他语言包,安装包的格式为tesseract-langpack-xxx
查看当前的版本状态
tesseract -v
tesseract --version
结果如下
tesseract 4.1.3
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
查看支持的语言
tesseract --list-langs
结果带有chi_sim chi_sim_vert 表示安装成功
List of available languages (5):
chi_sim
chi_sim_vert
deu
eng
osd
请参考上方前期准备
运行命令安装相关软件包
yum -y install libjpeg* libpng* libtiff*
为了方便离线安装,特地做了一个本地yum源的包,也可以直接安装rpm包。
Centos7下tesseract-ocr相关本地yum源安装包
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。