赞
踩
源码安装方式
- wget http://www.leptonica.org/source/leptonica-1.79.0.tar.gz
- tar zxvf leptonica-1.79.0.tar.gz
- cd leptonica-1.79.0
- ./configure
- make && make install
-
- echo export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib >> /etc/profile
- echo export LIBLEPT_HEADERSDIR=/usr/local/include >> /etc/profile
- echo export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig >> /etc/profile
- source /etc/profile
-
-
- wget https://github.com/tesseract-ocr/tesseract/archive/4.1.1.tar.gz
- cd tesseract-4.1.1
- ./configure
- make && make install
-
-
- 安装好后tesseract即可用,复制语言包到tessdata目录
- scp 192.168.1.3:/usr/share/tesseract/4/tessdata/chi_* /usr/local/share/tessdata/
-
- 上传测试图片到 /root目录
- rz
- 选择 1.jpg
-
- 测试
- tesseract -l chi_sim 1.jpg 1
-
- 查看结果
- cat 1.txt
centos7安装
root用户执行如下命令
- yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
-
- 如果找不到yum-config-manager命令
- 则安装 yum -y install yum-utils
-
-
- sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
- yum update
- yum install -y tesseract
- yum install -y tesseract-langpack-deu
-
-
- 报错
- Delta RPMs disabled because /usr/bin/applydeltarpm not installed.
-
- 安装
- yum -y install deltarpm
Centos安装好后就可以使用, 识别中文先将训练模型放入目录
通过 whereis tesseract 找到目录 /usr/share/tesseract/4/tessdata 即为存放训练目录
将下载好的中文模型上传至此目录
中文的训练模型如下, 主要是简体中文
chi_sim.traineddata
chi_sim_vert.traineddata
上传图片到服务器测试
测试命令
- tesseract -l chi_sim 0.jpg 0
- tesseract -l chi_sim 1.jpg 1
- tesseract -l chi_sim 2.jpg 2
- tesseract -l chi_sim 3.jpg 3
- tesseract -l chi_sim 4.jpg 4
- tesseract -l chi_sim 5.jpg 5
- tesseract -l chi_sim 6.jpg 6
- tesseract -l chi_sim 7.jpg 7
-
-
- -l 指定语言
- 6.jpg 后面的数据是文件名, 比如 6 实际存储的是 6.txt
windows安装,下载下面链接双击安装
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe
选择安装目录
D:\Program Files\Tesseract-OCR
安装好后,将此路径加入Path中
然后就可以跟linux一样使用命令操作了
这个版本太高,换成 411
https://github.com/UB-Mannheim/tesseract/wiki 这里是下载地址
找到旧版本的下载网址 https://digi.bib.uni-mannheim.de/tesseract/
发现4.10的版本,下载试试 https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.1.0-elag2019.exe
安装后出来的dll名称是 libtesseract-4.dll 手工改成 libtesseract411.dll, 也在path路径下面, 没能成功加载
还是报 Exception in thread "main" java.lang.UnsatisfiedLinkError: 找不到指定的模块。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。