当前位置:   article > 正文

java图片文字识别tesseract-ocr_java 网络图片tesseract.doocr

java 网络图片tesseract.doocr


一、安装

https://github.com/tesseract-ocr/tesseract

下载安装包:tesseract-ocr-setup-4.00.00dev.exe

下载语言包: chi_sim.traineddata,eng.traineddata

在这里插入图片描述

二、配置

(1)配置环境变量 TESSDATA_PREFIX=D:\tools\Tesseract-OCR\tessdata
在这里插入图片描述
(2)配置环境变量:path中添加 D:\tools\Tesseract-OCR
在这里插入图片描述

(2)将语言包放在安装目录 D:\tools\Tesseract-OCR\tessdata

在这里插入图片描述

二、测试

测试图片如下:
请添加图片描述

1. 命令行测试

再图片目录下,打开cmd窗口

tesseract test.jpg test -l chi_sim
  • 1

如果翻译英文,则执行命令:

tesseract test.jpg test -l eng
  • 1

结果:生成test.txt
在这里插入图片描述

在这里插入图片描述

2. 代码测试

引入依赖

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.4</version>
</dependency>

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
public static void main(String[] args) {
        String imagePath = "C:\\Users\\x\\Desktop\\img\\test.jpg";
        try {
            BufferedImage textImage = ImageIO.read(new File(imagePath));
            Tesseract instance = new Tesseract();
            //设置语言包路径
            instance.setDatapath("D:\\tools\\Tesseract-OCR\\tessdata");//设置训练库
            //设置中文识别
            instance.setLanguage("chi_sim");
            String result = instance.doOCR(textImage);
            System.out.println(result);
        } catch (Exception e) {
        }
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

结果:
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/819913
推荐阅读
相关标签
  

闽ICP备14008679号