当前位置:   article > 正文

【转载】OCR简介_ocr字典特征码

ocr字典特征码

转载学习:https://www.jianshu.com/p/921c1da740b5

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

从整体上来说,OCR一般分为两个大步骤:图像处理以及文字识别

一、图像处理

识别文字前,我们要对原始图片进行预处理,以便后续的特征提取和学习。这个过程通常包含:

灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。

每一个步骤都涉及了不同的算法。

我们以下面这张原始图片为例,进行每个步骤的讲解。

原始图片

 

1、灰度化

灰度化(gray processing),在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255。

说通俗一点,就是将一张彩色图片变为黑白图片。

灰度化

灰度化一般有分量法、最大值法、平均值法、加权平均法四种方法对彩色图像进行灰度化。

 

2、二值化

一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群

这是研究灰度变换的最特殊的方法,称为图像的二值化(binaryzation)。

二值化的黑白图片不包含灰色,只有纯白和纯黑两种颜色。

二值化

二值化里最重要的就是阈值的选取,一般分为固定阈值和自适应阈值。 比较常用的二值化方法则有:双峰法、P参数法、迭代法和OTSU法等

 

3、图像降噪

现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像。

减少数字图像中噪声的过程称为图像降噪(Image Denoising)。

图像中噪声的来源有许多种,这些噪声来源于图像采集、传输、压缩等各个方面。噪声的种类也各不相同,比如椒盐噪声,高斯噪声等,针对不同的噪声有不同的处理算法。

在上一步得到的图像中可以看到很多零星的小黑点,这就是图像中的噪声,会极大干扰到我们程序对于图片的切割和识别,因此我们需要降噪处理。降噪在这个阶段非常重要,降噪算法的好坏对特征提取的影响很大。

图像降噪

图像降噪的方法一般有均值滤波器、自适应维纳滤波器、中值滤波器、形态学噪声滤除器、小波去噪等

 

4、倾斜矫正

对于用户而言,拍照的时候不可能绝对的水平,所以,我们需要通过程序将图像做旋转处理,来找一个认为最可能水平的位置,这样切出来的图,才有可能是最好的一个效果。

倾斜矫正最常用的方法是霍夫变换,其原理是将图片进行膨胀处理,将断续的文字连成一条直线,便于直线检测。计算出直线的角度后就可以利用旋转算法,将倾斜图片矫正到水平位置。

 

5、文字切分

对于一段多行文本来讲,文字切分包含了行切分与字符切分两个步骤,倾斜矫正是文字切分的前提

我们将倾斜矫正后的文字投影到 Y轴,并将所有值累加,这样就能得到一个在y轴上的直方图。

图片在Y轴的投影直方图

 

直方图的谷底就是背景,峰值则是前景(文字)所在的区域。于是我们就将每行文字的位置给识别出来了。

行切分

 

字符切分和行切分类似,只是这次我们要将每行文字投影到 X轴。

但要注意的是,同一行的两个字符往往挨的比较紧,有些时候会出现垂直方向上的重叠,投影的时候将他们认为是一个字符,从而造成切割的时候出错(多出现在英文字符);也有些时候同一个字符的左右结构在X轴的投影存在一个小间隙,切割的时候误把一个字符切分为两个字符(多出现在中文字符)。

所以相较于行切分,字符切分更难。

对于这种情况,我们可以预先设定一个字符宽度的期望值,切出的字符如果投影超出期望值太大,则认为是两个字符;

如果远远小于这个期望值,则忽略这个间隙,把间隙左右的“字符”合成一个字符来识别。

字符切分

 

 

二、文字识别

预处理完毕后,就到了文字识别的阶段。这个阶段会涉及一些人工智能方面的知识,比较抽象,没法用图片表达。

 

1、特征提取和降维

特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母来说,这个特征提取是比较容易的,总共就 10 + 26 x 2 = 52 个字符,而且都是小字符集。对于汉字来说,特征提取的难度就比较大了,因为首先汉字是大字符集;其次国标中光是最常用的第一级汉字就有3755个;最后汉字结构复杂,形近字多,特征维度就比较大。

在确定了使用何种特征后,还有可能要进行特征降维,这种情况下,如果特征的维数太高,分类器的效率会受到很大的影响,为了提高识别速率,往往就要进行降维,这个过程也很重要,既要降低特征维数,又得使得减少维数后的特征向量还保留了足够的信息量(以区分不同的文字)。

 

2、分类器设计、训练

对一个文字图像,提取出特征,丢给分类器,分类器就对其进行分类,告诉你这个特征该识别成哪个文字。

分类器的设计就是我们的任务。分类器的设计方法一般有:模板匹配法、判别函数法、神经网络分类法、基于规则推理法等,这里不展开叙述。在进行实际识别前,往往还要对分类器进行训练,这是一个监督学习的过程。成熟的分类器也有很多,有 SVM,CNN 等。

 

3、后处理

其实就是对于分类器的分类结果进行优化,这一般就要涉及自然语言理解的范畴了。

首先是形近字的处理:举个例子,“分”和“兮”形近,但是如果遇到“分数”这个词语,就不应该识别为“兮数”,因为“分数”才是一个正常词语。这需要通过语言模型来进行纠正。

其次是对于文字排版的处理:比如一些书籍是分左右两栏的,同一行的左右两栏不属于同一句话,不存在任何语法上的联系。如果按照行切割,就会把左行的末尾和右行的开头连在一起,这是我们不希望看到的,这样的情况需要进行特殊处理。

 

三、应用场景

 

1、数字原生类

淘宝商品图是最具有代表性的数字原生类文字图。 
特点:

  • 最复杂多样:各种字体、背景、排列、组合等(MTWI挑战赛-最大的OCR竞赛)。 
  • 最有价值:商品信息载体 
  • 图片量最大:千亿图片,每日不停更新。

 

2、文档类

文档类OCR需求非常广,涉及各种公务场景。 
特点:

  • 100%识别率:人的输入准确率为98%,探索AI知识的极限;
  • 产品易用性:完善的功能,贴近业务需求;
  • 商业应用:文档类商业成熟。 

 

3、拍照表单类:

拍照表单类OCR价值非常大,非常有挑战性。 
特点:

  • 场景&数据:数据具有隐私性,典型应用场景沉淀技术能力;
  • 产品通用性:专家知识+模板=文本理解,一套方案解决上百种类型。
  • 商业价值:和行业场景深度接入,AI能力改善行业数据流程。(提供定制的拍照表格识别和结构化云服务) 


4、自然场景类:

OCR学术研究的重点方向。 
特点:

  • 数据:无具体数据类型定义,比如街拍数据;
  • 技术难点:不确定性,复杂环境干扰本质难点是定位和识别;
  • 商业价值:市场潜力巨大,如:车牌识别、摄像监控、自动驾驶。(技术能力领先,行业落地中)

 

【转载学习,别无他用】

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/231344
推荐阅读
相关标签
  

闽ICP备14008679号