当前位置:   article > 正文

一文读懂CRNN(基于图像序列识别的端到端可训练网络)

crnn

1.网络特点

1.端到段训练
2.自动处理变长序列
3.兼容基于词典与无词典模式

2.目前存在问题

1.对于序列识别,传统深度卷积DCNN输出长度固定,不能用于变长序列预测
2.变长识别问题可以使用检测+DCNN分类解决,但这种方法对于检测器有较高要求
3.基于词典的模式网络输出类别数量巨大,且难以范化到其他检测中去(例如中文,乐符OCR任务,新的任务需要新的词典)
4.存在方法:Hog feature+RNN,Hog feature无法端到段训练,RNN推理只依赖历史信息且存储的历史信息有限。

3.网络结构

CRNN网络结合了DCNN与RNN,网络由三部分组成
1.DCNN卷积
网络结构基于VGG并去掉全连接,第三四池化层使用1*2大小的池化窗口改变输出特征感受野以适配单词尺寸。用于提取输入图片特征到二维特征序列,每列特征与原始图片在水平方向上依次对应
在这里插入图片描述

2.循环层
使用Bi-LSTM构建特征序列,解决RNN上下文存储限制,解决LSTM只依赖过去信息的问题
在这里插入图片描述

3.转述层
转换每帧预测到标签序列,步骤:现移除重复标签,再移除“blank”空格
在这里插入图片描述

网络结构

在这里插入图片描述

叠加了两个Bi-LSTM以增加深度提升效果。网络训练使用了SGD,优化器Adadelta,使用生成数据集Synth,其中包含8百万图片与对应单词。训练数据完全使用生成数据集,测试使用真实场景图片。实验中CRNN获得了最好的效果且在其他序列识别任务中也有着不错的泛化性。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/720196
推荐阅读
相关标签
  

闽ICP备14008679号