赞
踩
// Github 文档
tesseract:https://github.com/thiagoalessio/tesseract-ocr-for-php
// 安装 tesseract
1.yum install tesseract
// 查看版本,能看到版本说明安装完成
2.tesseract -v
// 搜索语言包
3.yum search tesseract-langpack
//也可以到GitHub下载:https://github.com/tesseract-ocr/tessdata
mirrors / tesseract-ocr / tessdata · GitCode
// 安装Composer包
4.composer require thiagoalessio/tesseract_ocr
5.// php调用OCR
use thiagoalessio\TesseractOCR\TesseractOCR;
public function demo(){
$ocr = new TesseractOCR('demo.jpg');
echo $ocr->run();
}
6.进阶
安装语言包:
yum install tesseract-langpack-chi_sim.noarch (简体中文)
yum install tesseract-langpack-chi_tra.noarch (繁体中文)
yum install tesseract-langpack-eng.noarch (英语)
yum install tesseract-langpack-jpn.noarch (日语)
use thiagoalessio\TesseractOCR\TesseractOCR;
public function demo(){
// lang('chi_tra','chi_sim','eng','jpn')指定语言
echo (new TesseractOCR('demo.jpg'))->lang('chi_tra','chi_sim','eng','jpn')->run();
}
其他:
php中开启exec,system等函数调用系统命令
修改php.ini文件
disable_functions = proc_open, popen, exec, system, shell_exec, passthru
这里要把 exec,system,shell_exec 去掉
重启 php
升级tesseract 4.1 版本
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update tesseract
yum list tesseract
yum install tesseract
tesseract -v 如果没有更新版本,建议卸载掉以前的旧版本,重新安装
参考以上步骤安装tesseract4版本
对于tesseract4以上版本,中文语言包需要单独下载,中文语言包名chi_sim.traineddata,和window版本语言包一样,可以复制过来使用,放在/usr/share/tesseract/4/tessdata目录下。
测试图片识别命令,直接在命令行里输出,默认是英文。 # tesseract test.jpg stdout
中文输出命令:# tesseract test.jpg stdout -l chi_sim,如果输出报错,提示TESSDATA_PREFIX变量要求指向tessdata目录,需要在etc/profile.d/lang.sh文件里添加PATH=$PATH:/usr/local/tesseract/bin
export PATH
export TESSDATA_PREFIX="/usr/share/tesseract/4/tessdata"
export PATH=$PATH:$TESSDATA_PREFIX
保存后,命令行里输入命令:source /etc/profile 即可生效。再输入中文识别命令即可显示中文。
其它常用命令:查看语言包 # tesseract --list-langs
window版参考:Win10 环境安装tesseract-ocr 4.00并配置环境变量
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。