赞
踩
Linux平台的OCR软件:gImageReader
OCR技术的10个开源框架,让你快速构建OCR应用
--------------------------------------------------------------------
1. 即使从 linux官方仓库成功安装了 gImageReader ,还是需要自己安装 Tesseract-OCR语言包的。
原因:Tesseract-OCR语言包太大了,官方不会?将它们也放入自己的官方仓库里。
2. 全部的语言包太大了,在 GitHub上,通过网页可能不支持单独下载 ?? : https://github.com/tesseract-ocr/tessdata
a. 码云 ?通过码云来转换一下? https://gitcode.com/tesseract-ocr/tessdata/tree/main
b. 自己在 github上注册一个账号,fork,git ?
c. 偷懒,通过别人下载好的 ?
d. 改用其他更加方便的 OCR 软件 ?
安装语言包 ?
tessdata各语言集合包解压移动到tessdata文件夹下就可以了
链接: https://blog.csdn.net/weixin_66547608/article/details/134135566
Tesseract最新版语言包chi_sim.traineddata(4.0.0)GitHub官方获取免csdn积分,各个版本语言包全有 << 451MB https://blog.51cto.com/lanzao/3238722
--------------------------------------------------------------------
参考:
Linux平台的OCR软件:gImageReader https://zhuanlan.zhihu.com/p/363329552
从头开始训练自己的 Tesseract 5 LSTM 识别库(超详细) https://zhuanlan.zhihu.com/p/643532806
OCR工具对比与tesseract简明教程 https://zhuanlan.zhihu.com/p/58362904
=======================================
https://blog.csdn.net/weixin_43031092/article/details/105561486
介绍
Tesseract-OCR 5.0的win安装包即使选中中文也会出现无法安装中文的状况,官方文档给出的解释是自己下载语言包即可,但是github下载整个仓库实在是太庞大了(注:在 github上,通过网页下载的办法,是无法单独下载一个指定的语言包的。github 只有全部打包下载的功能?),因此这里单独git中文语言包。
后来git Github的时候发现还是很慢,于是转站码云。
如果你懒的操作,我也做好了压缩包,直接拿走不谢
https://download.csdn.net/download/weixin_43031092/12331633
但是有一个问题就是码云上的数据是就的怎么办?
很简单,把下图中的网址换成官方的:
https://github.com/tesseract-ocr/tessdata.git
缺点就是github网速慢!!!
原文链接:https://blog.csdn.net/weixin_43031092/article/details/105561486
https://zhuanlan.zhihu.com/p/110647131
命令行运行:(指定简体中文)
tesseract 5.png stdout -l chi_sim
https://blog.csdn.net/qq_38463737/article/details/109679007
可进入官网直接下载对应语言包,下载完成后放到Tesseract-OCR\tessdata下即可
https://github.com/tesseract-ocr/tessdata
这里的语言包比较久,但暂时没有发现最新语言包在那下载,可以先用用
https://github.com/tesseract-ocr/tesseract
Tesseract documentation https://tesseract-ocr.github.io/tessdoc/Home.html
Languages/Scripts supported in different versions of Tesseract https://tesseract-ocr.github.io/tessdoc/Data-Files-in-different-versions.html
https://packages.debian.org/unstable/main/gimagereader
https://github.com/manisandro/gImageReader
gImageReader << 2024 最近更新
Graphical GTK+ front-end to tesseract-ocr
gImageReader is a simple front-end to tesseract-ocr. Tesseract is probably
the most accurate open source optical character recognition (OCR) software and
can recognize text in over 60 languages.
gimagereader-qt5
Graphical Qt 5 front-end to tesseract-ocr
------
https://gstreamer.freedesktop.org
GStreamer OpenCV plugins
------
Cuneiform
multi-language OCR system << released on 2011-04-19
http://launchpad.net/cuneiform-linux/
Cuneiform is an OCR system. In addition to text recognition it also does
layout analysis and text format recognition.
------
GOCR << 2018 最近更新
Command line OCR
This is a multi-platform OCR (Optical Character Recognition) program.
https://baijiahao.baidu.com/s?id=1768094058432529500
OCR技术是一种将图像中的文本信息转换为可编辑文本的技术。随着人工智能技术的快速发展,越来越多的 OCR 开源框架被开发出来,使得 OCR 技术的应用变得更加便捷和高效。下面介绍10个优秀的 OCR 开源框架,让你快速构建 OCR 应用。
Tesseract 是 Google 开发的 OCR 引擎,支持多种语言的文本识别,包括英语、中文、日语等。该引擎基于 LSTM 模型,具有高精度和良好的可扩展性,是目前最流行的 OCR 引擎之一。
2. OCRopus
OCRopus 是一款基于 Python 的 OCR 引擎,支持多种语言的文本识别,包括中文、日语、韩语等。该引擎具有高精度和良好的可扩展性,可以轻松地集成到不同的应用中。
3. Kraken
Kraken 是一款基于 Python 的 OCR 引擎,支持多种语言的文本识别。该引擎基于 LSTM 模型,具有高精度和良好的可扩展性,可以轻松地集成到不同的应用中。
4. EasyOCR
EasyOCR 是一款基于 Python 的 OCR 引擎,支持多种语言的文本识别,包括中文、日语、韩语等。该引擎具有高精度和良好的可扩展性,可以轻松地集成到不同的应用中。
GOCR 是一款开源的 OCR 引擎,支持多种语言的文本识别,包括英语、中文、日语等。该引擎具有高精度和良好的可扩展性,可以轻松地集成到不同的应用中。
6. CuneiForm
CuneiForm 是一款开源的 OCR 引擎,支持多种语言的文本识别,包括英语、中文、日语等。该引擎具有高精度和良好的可扩展性,可以轻松地集成到不同的应用中。
7. Asprise OCR
Asprise OCR 是一款商业化的 OCR 引擎,但也提供了免费的 OCR SDK,支持多种语言的文本识别。该引擎具有高精度和良好的可扩展性,并且提供了丰富的 API 接口,方便开发者集成。
8. OCRopus4
OCRopus4 是 OCRopus 的升级版,支持多种语言的文本识别,包括中文、日语、韩语等。该引擎基于 LSTM 模型,具有高精度和良好的可扩展性,可以轻松地集成到不同的应用中。
9. OpenCV
OpenCV 是一款开源的计算机视觉库,也可以用于 OCR 技术的开发。OpenCV 提供了多种图像处理和分析的工具,可以用于提高 OCR 引擎的识别精度。
DeepOCR 是一款基于深度学习的 OCR 引擎,支持多种语言的文本识别。该引擎基于 CNN 和 LSTM 模型,具有高精度和良好的可扩展性,可以轻松地集成到不同的应用中。
综上所述,OCR 技术的应用变得更加便捷和高效,得益于越来越多的 OCR 开源框架的发展。这些框架不仅可以提高 OCR 引擎的识别精度,而且可以轻松地集成到不同的应用中,为用户提供更优质的服务。关键词:OCR 技术、开源框架、Tesseract、OCRopus、Kraken、EasyOCR、GOCR、CuneiForm、Asprise OCR、OCRopus4、OpenCV、DeepOCR。
如果有任何疑问可以随时评论留言或私信我,欢迎关注我[点击关注],共同探讨。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。