OCR和STR识别整体概述（一）

作者：花生_TL007 | 2024-04-27 10:15:12

踩

ocr和str

文字识别介绍

首先，我们首先了解OCR和STR到底是何物：

OCR英文全称是Optical Character Recognition（简称为OCR），俗称光学字符识别；而STR英文全称是Sence Text Recognition（简称STR）；（以下全部识别文字识别来代表OCR和STR）；目前的很多文字识别都多多少少带有一定的场景背景，因此后续文章的侧重点会偏向于图一这种带有背景的文字图片；

影响文字识别效果的因素主要有以下几点：

1.文字的应用场景

2.文字的形成方式

3.文字的字体

按照文字的应用场景划分，具体可以分为一下几种（如下图二）：文档类型的文字识别（例如word、pdf等等），证件类型的文字识别（例如身份证、驾驶证等等），票据类型的文字识别（例如出租车票、火车票、增值税发票等等），自然场景类型的文字识别（例如手机拍摄的路边广告牌、标语、商场店铺名等等）细分的话还有很多，这里不一一例举。

图二四种应用场景

按照文字的形成方式来划分，可以分为1.标准印刷体文字的识别（包括印刷体数字、汉字、英文），2.手写文字的识别（包括手写数字、汉字、英文），3.即存在印刷体又存在手写体的文字识别；而每一种文字的形成方式中又包含了不同的应用场景，因此识别起来会有不同的难度。

其中文字的应用场景包含了文字的形成方式，文字的形成方式又包含了文字的字体，最终形成了一张包含文本的图像来让我们识别；

文字识别技术概览

我们较早知道或者较早用过的的文字识别的算法应该都是Tesseract-OCR，而后慢慢转向深度学习的方式。Tesseract-OCR是一套非常成熟的文字识别框架，可以直接安装使用检测自己需要识别的文本图像，并且支持训练自己的字库制作，是一个较为完善的识别框架，但是效果在众多复杂场景中难以达到识别要求；而深度学习的方式恰好弥补了这一缺陷，在众多复杂场景中只要调整自己的网络参数，就可以达到一个相对满意的结果。

而想要做好一个文字识别项目，首先要经过两个大的模块：文本检测、文字识别；检测文本区域是文字识别的前提，也是影响最终效果的重要一环，因此后面会分别描述文本检测和文本识别；

后续会通过具体的应用场景来详细描述文字识别的方法，包括中文、英文、数字、特殊符号；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/496194