赞
踩
总览
你还记得考试期间我们必须填写正确答案的日子吗?或者你还记得在开始第一份工作之前进行的能力测验呢?我可以回忆起奥林匹克竞赛和多项选择测试,大学和组织会使用光学字符识别(OCR)系统对答卷进行大量评分。
老实说,OCR在广泛的行业和功能中都有应用,因此从扫描文档(包括银行对帐单,收据,手写文档,优惠券等)到阅读自动驾驶汽车的路牌,都在OCR的范畴内。
OCR系统在几十年前建造起来是非常昂贵和繁琐的,但随着计算机视觉和深度学习领域的进步意味着我们现在可以建立自己的OCR系统了!
但是,建立OCR系统并不是一件容易的事,对于初学者来说,面临着诸如图像中的字体不同,对比度差,图像中有多个对象等问题。
因此,在本文中,我们将探讨OCR任务的一些非常著名且有效的方法,以及如何自己实施。
如果你不熟悉目标检测和计算机视觉,建议你先阅读以下资源:
基本目标检测算法的介绍
https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1
计算机视觉课程
https://courses.analyticsvidhya.com/courses/computer-vision-using-deep-learning-version2
什么是光学字符识别(OCR)
现实世界中流行的OCR应用
使用Tesseract OCR进行文本识别
文本检测的不同方法
首先,让我们了解一下什么是OCR。
OCR,或称光学字符识别是一种识别图像内文本并将其转换为电子形式的过程。这些图像可以是手写文字,文件,收据,名片等印刷文字,甚至是自然场景照片。
OCR有两个部分,第一部分是文本检测,确定图像中的文本部分,文本在图像中的定位对于OCR的第二部分文本识别非常重要,其中文本是从图像中提取出来的。结合使用这些技术可以从任何图像中提取文本。
没有什么是完美的,OCR也不例外。但是,随着深度学习的到来,对这一问题有可能得到更好、更普遍的解决方案。
在我们深入研究如何构建自己的OCR之前,让我们先看看OCR的一些流行应用程序。
OCR在各行各业有着广泛的应用(主要是为了减少人工操作)。它已经融入到我们的日常生活中,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。