当前位置:   article > 正文

tesseract ocr 安装使用_tesseract ocr的dll文件

tesseract ocr的dll文件

源码安装方式

  1. wget http://www.leptonica.org/source/leptonica-1.79.0.tar.gz
  2. tar zxvf leptonica-1.79.0.tar.gz
  3. cd leptonica-1.79.0
  4. ./configure
  5. make && make install
  6. echo export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib >> /etc/profile
  7. echo export LIBLEPT_HEADERSDIR=/usr/local/include >> /etc/profile
  8. echo export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig >> /etc/profile
  9. source /etc/profile
  10. wget https://github.com/tesseract-ocr/tesseract/archive/4.1.1.tar.gz
  11. cd tesseract-4.1.1
  12. ./configure
  13. make && make install
  14. 安装好后tesseract即可用,复制语言包到tessdata目录
  15. scp 192.168.1.3:/usr/share/tesseract/4/tessdata/chi_* /usr/local/share/tessdata/
  16. 上传测试图片到 /root目录
  17. rz
  18. 选择 1.jpg
  19. 测试
  20. tesseract -l chi_sim 1.jpg 1
  21. 查看结果
  22. cat 1.txt

centos7安装

root用户执行如下命令

  1. yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
  2. 如果找不到yum-config-manager命令
  3. 则安装 yum -y install yum-utils
  4. sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
  5. yum update
  6. yum install -y tesseract
  7. yum install -y tesseract-langpack-deu
  8. 报错
  9. Delta RPMs disabled because /usr/bin/applydeltarpm not installed.
  10. 安装
  11. yum -y install deltarpm

 

Centos安装好后就可以使用, 识别中文先将训练模型放入目录

通过 whereis tesseract  找到目录 /usr/share/tesseract/4/tessdata 即为存放训练目录

将下载好的中文模型上传至此目录 

中文的训练模型如下, 主要是简体中文

chi_sim.traineddata

chi_sim_vert.traineddata

上传图片到服务器测试

 

测试命令

  1. tesseract -l chi_sim 0.jpg 0
  2. tesseract -l chi_sim 1.jpg 1
  3. tesseract -l chi_sim 2.jpg 2
  4. tesseract -l chi_sim 3.jpg 3
  5. tesseract -l chi_sim 4.jpg 4
  6. tesseract -l chi_sim 5.jpg 5
  7. tesseract -l chi_sim 6.jpg 6
  8. tesseract -l chi_sim 7.jpg 7
  9. -l 指定语言
  10. 6.jpg 后面的数据是文件名, 比如 6 实际存储的是 6.txt

 

windows安装,下载下面链接双击安装

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe

 

选择安装目录

D:\Program Files\Tesseract-OCR

安装好后,将此路径加入Path中

然后就可以跟linux一样使用命令操作了

 

这个版本太高,换成 411

https://github.com/UB-Mannheim/tesseract/wiki 这里是下载地址

 

找到旧版本的下载网址 https://digi.bib.uni-mannheim.de/tesseract/

 发现4.10的版本,下载试试  https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.1.0-elag2019.exe

 

 

安装后出来的dll名称是  libtesseract-4.dll 手工改成 libtesseract411.dll, 也在path路径下面, 没能成功加载

还是报 Exception in thread "main" java.lang.UnsatisfiedLinkError: 找不到指定的模块。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/496270
推荐阅读
  

闽ICP备14008679号