赞
踩
发现基于RNN的方法存在一些明显的缺点,如时间依赖的解码方式和语义上下文的单向串行传输,这极大地限制了语义信息的帮助和计算效率。为了减轻这些限制,我们提出了一种新颖的端到端可训练框架,该框架称为语义推理网络(SRN)
什么是空间规整( spatial regularization)?
为什么要做空间规整? 因为标签之间没有标注空间信息,难以得到标签之间潜在的空间关系。
如何做空间规整?在Learning Spatial Regularization with Image-level
Supervisionsfor Multi-label Image
Classification一文中,作者提出了学习所有标签之间的注意力图(attention
maps),挖掘标签之间的潜在关系,结合正则化的分类结果和ResNet101网络的分类结果,提高了图像分了的表现。rocks置信度从0.405提高到了0.526,
sun从0.339提高到了0.519. 其他类别也有相应的提高。
SRN是端到端可训练的场景文字识别网络,由四部分组成:基础网络Backbone、
并行的视觉特征提取模块(PVAM)
、全局语义推理模块(GSRM) 和
视觉语义融合的解码器(VSFD)。
给定一张输入的文本图像,基于ResNet50 + Transformer unit的Backbone从中提取出视觉2D feature map V;
之后PVAM会针对每个目标字符获取其相应的视觉特征G;
GSRM会基于视觉特征G获取全局语义信息,并转化为每个目标字符的语义特征S;
最后VSFD融合对齐的视觉特征和语义特征,预测出相应字符。在训练阶段和推断阶段,每个序列中各个字符之间是并行。
SRN在多个公开数据集上进行了效果验证,包括ICDAR13、ICDAR15,IIIT5K,SVT,SVTP,CUTE80数据集,在准确度上取得了SOTA或者可比的结果。
同时,也在中文长词数据集合TRW上与主流方法做了精度对比,证明了该方法对于中文的适用性。图 6中展示了语义推理模块的使用与否在中英文上的可视化对比效果。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。