OCR之CRNN模型简单理解

作者：Guff_9hys | 2024-08-11 19:42:55

踩

crnn模型

参考学习视频：CRNN整体流程_哔哩哔哩_bilibili

1 基本原理

原论文

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition（一种端到端可训练神经网络用于图像序列的识别及其在场景文本识别中的应用）论文地址：https://arxiv.org/pdf/1507.05717.pdf

主要创新点：CRNN网络

目的（文本识别）：输入图片，输出图片上的字符文本。

通过卷积神经网络（CNN）提取原图特征，然后将特征送入循环神经网络层（BiLSTM）得到图片中的序列输出结论，通过softmax分类层得到output。最后通过转换层将输出结论结合CTC转换为确定字符。

网络结构--->

总体网络结构如下：

1. CNN层

CNN提取图片特征过程如下：将原图样本resize为32*100，然后通过系列卷积操作，提取特征得到1*26*512，即为原图分为26块序列，每一块特征点512个，26个特征序列为RNN输入做准备。

1. RNN层

RNN获取图片特征中每一帧的输出label概率分布：

从图中可以看出，将1*26*512分布的feature map，通过deep BiLSTM网络结构的时序数据预测后，得到26*N的矩阵分布输出，其中26表示图片特征中的26个序列，N表示每一个序列预测的N个标签的概率值。比如预测26个字母，那么这里N也为26（实际中CRNN加了空格符号’-’，所以应该是N为27）

1. 转换层

最后将输出转换为具体字符结论的时候，用到了CTC理论（Connectionist Temporal Classification），可以不用对齐处理识别结论中的字符。比如h--ee-l-l---o -> hello. CTC通过增加空白符-，利用相邻中相同的合并为一个，最后一起去掉-的原则，来达到最后目的。