2D Attention Network for Scene Text Recognition

作者：笔触狂放9 | 2024-06-09 05:30:51

踩

2d attention

继 Transformer-based-OCR 后又一篇基于语言、翻译模型架构的不规则文字识别的paper，主要贡献如下：

attention部分使用多层双向transformer的block（BERT）替代了单transformer block；
label只用于计算loss，不用作网络输入，因此output过程是一次性输出整个字符串，精度和inference速度较之Transformer-based OCR都有所改善；
decoder部分串联了一个BERT attention模块，增强了输出节点间(每个字符作为一个节点)的依赖关系；
支持多行字符识别；

网络结构：

Feature Extraction Module：图像resize为32x100作为输入，encoder部分是基于ResNet的CNN模块，得到的feature map 经过flatten操作压缩为一维特征向量，记为 $I$ ；再将 $I$ 按照顺序做 position encoding 得到位置编码矩阵 $E$ ，最后将 $F$ = $I$ + $E$ 作为encoder输出和后面的 Relation Attention 模块的输入；
Relation Attention Module 为一个BERT模块（橘黄色虚线处），其具体结构如下：

这是一个多层双向的transformer block，关于transformer block的具体信息，参见上篇曲形文字识别的博文：Transformer-based OCR；其中还是有几点值得说一下:

其中 $W_1$ ， $W_2$ 为线性变换矩阵， $O^T$ 为上一模块的输出转置后的结果，得到 $\alpha$ 的是一个attention权重矩阵；

$I$ 是前面encoder部分得到的特征图，输出 $G$ 是每一个输出节点的glimpse集合（即每一个字符对应的概率向量）；

decoder：作者称之为 two stage decoder，一般来说，在得到上述的glimpse矩阵 $G$ 后，经过一个线性变换和softmax就可以得出最终的预测结果，但是作者认为因为 parallel attention 部分的计算使得输出节点之间的依赖关系丢失，为了弥补这一部分的损失，在 $G$ 之后又接了一个BERT模块，得到的glimpse' 再经过常规的decoder操作得到输出字符串。和前面的transformer 还有 RNN / LSTM attention网络不同，这里直接输出n个字符节点（论文中n取35，即一般单词长度不会超过35），并且以EOS标志前的字符节点作为最终的预测结果。这样的好处就是每一个字符的输出不依赖前一个字符的输入，所以不会出现中间字符预测错误后对后面字符的预测有影响的情况。结构图如下：

上面为G直接decode，下面为经过一个BERT模块再decode，inference时取下面的结果为最终结果。

公共数据集上的表现：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/692810