当前位置:   article > 正文

SRN 语义推理网络_全局语义推理

全局语义推理

发现基于RNN的方法存在一些明显的缺点,如时间依赖的解码方式语义上下文的单向串行传输,这极大地限制了语义信息的帮助和计算效率。为了减轻这些限制,我们提出了一种新颖的端到端可训练框架,该框架称为语义推理网络(SRN)

什么是空间规整( spatial regularization)?
为什么要做空间规整? 因为标签之间没有标注空间信息,难以得到标签之间潜在的空间关系

如何做空间规整?在Learning Spatial Regularization with Image-level
Supervisionsfor Multi-label Image
Classification一文中,作者提出了学习所有标签之间的注意力图(attention
maps),挖掘标签之间的潜在关系,结合正则化的分类结果和ResNet101网络的分类结果,提高了图像分了的表现。rocks置信度从0.405提高到了0.526,
sun从0.339提高到了0.519. 其他类别也有相应的提高。
 

SRN是端到端可训练的场景文字识别网络,由四部分组成:基础网络Backbone、

并行的视觉特征提取模块(PVAM)

全局语义推理模块(GSRM) 和

视觉语义融合的解码器(VSFD)。 

给定一张输入的文本图像,基于ResNet50 + Transformer unit的Backbone从中提取出视觉2D feature map V;

之后PVAM会针对每个目标字符获取其相应的视觉特征G

GSRM会基于视觉特征G获取全局语义信息,并转化为每个目标字符的语义特征S

最后VSFD融合对齐的视觉特征和语义特征,预测出相应字符。在训练阶段和推断阶段,每个序列中各个字符之间是并行

SRN在多个公开数据集上进行了效果验证,包括ICDAR13、ICDAR15,IIIT5K,SVT,SVTP,CUTE80数据集,在准确度上取得了SOTA或者可比的结果。

同时,也在中文长词数据集合TRW上与主流方法做了精度对比,证明了该方法对于中文的适用性。图 6中展示了语义推理模块的使用与否在中英文上的可视化对比效果。

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号