SRN 语义推理网络_全局语义推理

作者：小惠珠哦 | 2024-07-29 09:43:13

踩

全局语义推理

发现基于RNN的方法存在一些明显的缺点，如时间依赖的解码方式和语义上下文的单向串行传输，这极大地限制了语义信息的帮助和计算效率。为了减轻这些限制，我们提出了一种新颖的端到端可训练框架，该框架称为语义推理网络（SRN）

什么是空间规整( spatial regularization）?
为什么要做空间规整？因为标签之间没有标注空间信息，难以得到标签之间潜在的空间关系。

如何做空间规整？在Learning Spatial Regularization with Image-level
Supervisionsfor Multi-label Image
Classification一文中，作者提出了学习所有标签之间的注意力图（attention
maps），挖掘标签之间的潜在关系，结合正则化的分类结果和ResNet101网络的分类结果，提高了图像分了的表现。rocks置信度从0.405提高到了0.526，
sun从0.339提高到了0.519. 其他类别也有相应的提高。

SRN是端到端可训练的场景文字识别网络，由四部分组成：基础网络Backbone、

并行的视觉特征提取模块(PVAM)

、全局语义推理模块(GSRM) 和

视觉语义融合的解码器(VSFD)。

给定一张输入的文本图像，基于ResNet50 + Transformer unit的Backbone从中提取出视觉2D feature map V；

之后PVAM会针对每个目标字符获取其相应的视觉特征G；

GSRM会基于视觉特征G获取全局语义信息，并转化为每个目标字符的语义特征S；

最后VSFD融合对齐的视觉特征和语义特征，预测出相应字符。在训练阶段和推断阶段，每个序列中各个字符之间是并行。

SRN在多个公开数据集上进行了效果验证，包括ICDAR13、ICDAR15，IIIT5K，SVT，SVTP，CUTE80数据集，在准确度上取得了SOTA或者可比的结果。

同时，也在中文长词数据集合TRW上与主流方法做了精度对比，证明了该方法对于中文的适用性。图 6中展示了语义推理模块的使用与否在中英文上的可视化对比效果。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/898220