当前位置:   article > 正文

(CentOS7)PHP应用Tesseract文字识别中文_tesseractocr安装使用php

tesseractocr安装使用php

// Github 文档
tesseract:https://github.com/thiagoalessio/tesseract-ocr-for-php

// 安装 tesseract
1.yum install tesseract

// 查看版本,能看到版本说明安装完成
2.tesseract -v

// 搜索语言包
3.yum search tesseract-langpack
//也可以到GitHub下载:https://github.com/tesseract-ocr/tessdata

mirrors / tesseract-ocr / tessdata · GitCode

// 安装Composer包
4.composer require thiagoalessio/tesseract_ocr

5.// php调用OCR
use thiagoalessio\TesseractOCR\TesseractOCR;
public function demo(){
    $ocr = new TesseractOCR('demo.jpg');
    echo $ocr->run();
}

6.进阶
安装语言包:
yum install tesseract-langpack-chi_sim.noarch (简体中文)
yum install tesseract-langpack-chi_tra.noarch (繁体中文)
yum install tesseract-langpack-eng.noarch (英语)
yum install tesseract-langpack-jpn.noarch (日语)

use thiagoalessio\TesseractOCR\TesseractOCR;
public function demo(){
    // lang('chi_tra','chi_sim','eng','jpn')指定语言
    echo (new TesseractOCR('demo.jpg'))->lang('chi_tra','chi_sim','eng','jpn')->run();
}

其他:
php中开启exec,system等函数调用系统命令
修改php.ini文件
disable_functions = proc_open, popen, exec, system, shell_exec, passthru
这里要把 exec,system,shell_exec 去掉
重启 php

升级tesseract 4.1 版本
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update tesseract
yum list tesseract
yum install tesseract
tesseract -v 如果没有更新版本,建议卸载掉以前的旧版本,重新安装

参考以上步骤安装tesseract4版本

对于tesseract4以上版本,中文语言包需要单独下载,中文语言包名chi_sim.traineddata,和window版本语言包一样,可以复制过来使用,放在/usr/share/tesseract/4/tessdata目录下。

测试图片识别命令,直接在命令行里输出,默认是英文。 # tesseract test.jpg stdout

中文输出命令:# tesseract test.jpg stdout -l chi_sim,如果输出报错,提示TESSDATA_PREFIX变量要求指向tessdata目录,需要在etc/profile.d/lang.sh文件里添加PATH=$PATH:/usr/local/tesseract/bin
export PATH
export TESSDATA_PREFIX="/usr/share/tesseract/4/tessdata" 
export PATH=$PATH:$TESSDATA_PREFIX

保存后,命令行里输入命令:source /etc/profile 即可生效。再输入中文识别命令即可显示中文。

其它常用命令:查看语言包 # tesseract --list-langs

window版参考:Win10 环境安装tesseract-ocr 4.00并配置环境变量

https://www.lmlphp.com/user/100143/article/item/1244497/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/620041
推荐阅读
相关标签
  

闽ICP备14008679号