当前位置:   article > 正文

19.7K star!厉害了,最好用的OCR开源文字识别工具,没有之一!

文本识别开源

efdaaeac73e49d236e23ef8f7e2f0960.jpeg

在日常的工作中,例如自动化测试开展时,经常涉及到一些验证码识别、文本识别、图像识别的场景,市面上虽也有很多识别工具,但质量、准确性参差不齐。

今天给大家推荐一个开源OCR项目:Umi-OCR,功能很强大,而且还可以离线使用,现在已经有了19.7k+的星标,足见该项目的受欢迎程度。

1、项目介绍

1fb10f8859d4009b906752d6f50d2bf2.png

该项目是基于PaddleOCR开发的,用Python编写,目前只支持Windows平台运行,跨平台还在筹备中。

项目地址:

  1. https://github.com/hiroi-sora/Umi-OCR
  2. https://gitee.com/mirrors/Umi-OCR.git

项目结构:

  1. Umi-OCR
  2. ├─ Umi-OCR.exe
  3. └─ UmiOCR-data
  4.    ├─ main.py **
  5.    ├─ version.py **
  6.    ├─ site-packages
  7.    │  └─ python包
  8.    ├─ runtime
  9.    │  └─ python解释器
  10.    ├─ qt_res **
  11.    │  └─ 项目qt资源,包括图标和qml源码
  12.    ├─ py_src **
  13.    │  └─ 项目python源码
  14.    ├─ plugins
  15.    │  └─ 插件
  16.    └─ i18n **
  17.       └─ 翻译文件

项目特点:

  • 免费:本项目所有代码开源,完全免费。

  • 方便:解压即用,离线运行,无需网络。

  • 高效:自带高效率的离线OCR引擎,内置多种语言识别库。

  • 灵活:支持命令行、HTTP接口等多种调用方式。

  • 功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别

2、项目使用

直接在releases中选择合适的版本,可选择以下方式下载:

  1. GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
  2. 蓝奏云 https://hiroi-sora.lanzoul.com/s/umi-ocr
  3. Source Forge https://sourceforge.net/projects/umi-ocr

本软件无需安装,解压后,点击 Umi-OCR.exe 即可启动程序。

480495a2dae8f2a06ab55d64111018ee.png

截图OCR

这个功能很适合在一些不能复制的网页上使用,速度很快,准确率也很高。

831eba8f4177388030824b42645cdf5f.png

截图OCR:打开这一页后,就可以用快捷键唤起截图,识别图中的文字。

  • 左侧的图片预览栏,可直接用鼠标划选复制。

  • 右侧的识别记录栏,可以编辑文字,允许划选多个记录复制。

  • 也支持在别处复制图片,粘贴到Umi-OCR进行识别。

批量OCR

如果需要一次性识别多图片,这个功能值得拥有 只需要将所有的图片导入,然后点击开始任务,就可以批量识别了。

00bc45da26b407f2a3e026133ddbab59.png

批量OCR:这一页支持批量导入本地图片并识别。

  • 识别内容可以保存为 txt / jsonl / md / csv(Excel) 等多种格式。

  • 与截图OCR一样,支持文本后处理功能,整理OCR文本的排版和顺序。

  • 支持 忽略区域 。

  • 没有数量上限,可一次性导入几百张图片进行任务。

可自定义忽略区域

a9cae5ef1878e4f919650d644d2059bc.png

忽略区域:批量OCR中的一种特殊功能,适用于排除图片中的不想要的文字。

文档识别

d882ee234c45c6132dba9e53dc8c9874.png

文档识别:

  • 支持导入 pdf, xps, epub, mobi, fb2, cbz 格式的文件。

  • 对扫描件进行OCR,或提取原有文本。可输出为 双层可搜索PDF 。

  • 支持设定 忽略区域 ,可用于排除页眉页脚的文字。

  • 可设置任务完成后 自动关机/休眠 。

支持命令行、接口调用

支持通过命令行或HTTP接口的方式来调用,命令行调用入口就是主程序 Umi-OCR.exe

OCR指令命令行使用:

  1. 截屏:Umi-OCR.exe --screenshot
  2. 粘贴图片:Umi-OCR.exe --clipboard
  3. 指定地址:Umi-OCR.exe --path "D:/xxx.png"
  4. 结果输出:Umi-OCR.exe --screenshot --> test.txt

OCR指令均可在控制台回传识别结果。请耐心等待,在一次指令结束前不要输入下一条指令。所有指令支持用前几个字母替代,如--screenshot、--clipboard可以分别简写为--sc、--cl。具体可自己尝试。

HTTP接口 需先勾选开启HTTP服务,

6a4540b7cadbb2e73452d0e53d87bf94.png

必须允许HTTP服务才能使用HTTP接口(默认开启)。如果需要允许被局域网访问,请将主机切换到任何可用地址。

示例如下:

  1. import requests
  2. import json
  3. url = "http://127.0.0.1:1224/api/ocr"
  4. data = {
  5.     "base64""iVBORw0KGgoAAAANSUhEUgAAAC4AAAAXCAIAAAD7ruoFAAAACXBIWXMAABnWAAAZ1gEY0crtAAAAEXRFWHRTb2Z0d2FyZQBTbmlwYXN0ZV0Xzt0AAAHjSURBVEiJ7ZYrcsMwEEBXnR7FLuj0BPIJHJOi0DAZ2qSsMCxEgjYrDQqJdALrBJ2ASndRgeNI8ledutOCLrLl1e7T/mRkjIG/IXe/DWBldRTNEoQSpgNURe5puiiaJehrMuJSXSTgbaby0A1WzLrCCQCmyn0FwoN0V06QONWAt1nUxfnjHYA8p65GjhDKxcjedVH6JOejBPwYh21eE0Wzfe0tqIsEkGXcVcpoMH4CRZ+P0lsQp/pWJ4ripf1XFDFe8GHSHlYcSo9Es31t60RdFlN1RUmrma5oTzTVB8ZUaeeYEC9GmL6kNkDw9BANAQYo3xTNdqUkvHq+rYhDKW0Bj3RSEIpmyWyBaZaMTCrCK+tJ5Jsa07fs3E7esE66HzralRLgJKp0/BD6fJRSxvmDsb6joqkcFXGqMVVFFEHDL2gTxwCAaTabnkFUWhDCHTd9iYrGcAL1ZnqIp5Vpiqh7bCfua7FA4qN0INMcN1+cgCzj+UFxtbmvwdZvGIrI41JiqhZBWhhF8WxorkYPpQwJiWYJeA3rXE4hzcwJ+B96F9zCFHC0FcVegghvFul7oeEE8PvHeJqC0w0AUbbFIT8JnEwGbPKcS2OxU3HMTqD0r4wgEIuiKJ7i4MS16+og8/+bPZRPLa+6Ld2DSzcAAAAASUVORK5CYII=",
  6.     # 可选参数
  7.     # Paddle引擎模式
  8.     # "options": {
  9.     #     "ocr.language""models/config_chinese.txt",
  10.     #     "ocr.cls": False,
  11.     #     "ocr.limit_side_len"960,
  12.     #     "tbpu.parser""multi_para",
  13.     #     "data.format""text",
  14.     # }
  15.     # Rapid引擎模式
  16.     # "options": {
  17.     #     "ocr.language""简体中文",
  18.     #     "ocr.angle": False,
  19.     #     "ocr.maxSideLen"1024,
  20.     #     "tbpu.parser""multi_para",
  21.     #     "data.format""text",
  22.     # }
  23. }
  24. headers = {"Content-Type""application/json"}
  25. data_str = json.dumps(data)
  26. response = requests.post(url, data=data_str, headers=headers)
  27. if response.status_code == 200:
  28.     res_dict = json.loads(response.text)
  29.     print("返回值字典\n", res_dict)

更多详细使用可参考:

  • https://gitee.com/mirrors/Umi-OCR/blob/main/docs/README_CLI.md

  • https://gitee.com/mirrors/Umi-OCR/blob/main/docs/README_HTTP.md

如果觉得有用,就请关注、点赞、在看、分享到朋友圈吧!

推荐阅读:

  1. 重磅消息 | 2023年最新全栈测试开发技能实战指南V2.0(第4期)

  2. 史上最全测试开发工具推荐(含自动化、APP性能、稳定性、抓包神器)

  3. 推荐几款常用测试数据自动生成工具(适用自动化测试、性能测试)

END

bdc68691417f1dc201d6a60fcd283549.png

所有原创文章

第一时间发布至此公众号「测试开发技术」

12f029e119c322e8cfd8bb09d1218ee3.jpeg

长按二维码/微信扫码  添加作者

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号