当前位置:   article > 正文

Tesseract Java 识别中文+数字+字母,使用多种语言_tesseract.setlanguage

tesseract.setlanguage

    Java基于Tesseract来进行OCR识别时,如果使用chi_sim,对数字则识别不完全。如果使用eng,则对中文识别不正确,那么如何既能识别数字又能识别出中文和字母呢?

    Tesseract命令行识别时支持-l参数指定语言,如:-l deu+eng。在使用Java类库时同样也是支持的,代码如下:

  1. File tempFolder = TempDirectory.location();
  2. File trainDataHome = new File(tempFolder, "tessdata");
  3. ITesseract tesseract = new Tesseract();
  4. // 加载语言,使用两种语言
  5. tesseract.setLanguage("eng+chi_sim");
  6. tesseract.setDatapath(trainDataHome.getAbsolutePath());
  7. String content = tesseract.doOCR(new File("D:\\test\\4-0-0.png"));
  8. System.out.println(content);

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/620020
推荐阅读
相关标签
  

闽ICP备14008679号