当前位置:   article > 正文

What Is Wrong With Scene Text Recognition Model Comparisions阅读笔记_tps transformation

tps transformation

场景文本识别:由于训练数据集和评估数据集的选择不一致,整体和公平的比较在该领域出现了很大的缺失。
三个贡献:(1)检查了不一致的训练和评估数据集,以及不一致导致的性能茶橘。(2)提出了一种统一的4阶段STR架构,大多数STR模型可以放入。使用这个框架可以对以前提出的模块进行扩展评估,也可以发现以前没有研究过的模块组合。(3)从准确率,速度和内存需求分析模块对性能的贡献,在一个一致的训练级和评测级上。这样的分析清除了当前比较的障碍,了解现有模块的性能。我们的代码是公开可用的。
介绍:先前的方法提出了多阶段的通道,每一个通道是一个深层神经网络
应对特定的挑战。例如RCNN处理不同数量的字符,CTC辨别字符的数量。transformation模块将输入标准化为直的文本以减少下游模块处理弯曲文本的负担。
然而,很难评估一个新提出的模块是否或怎样提升当前的性能,由于一些论文提出了不同的评估和测试环境,使得报告的数字难以比较。我们观察到1)训练集2)测试在不同的方法之间存在偏差。例如,不同的工作使用不同的IC13数据集的子集作为评估集合,可能造成超过15%的评估差异,妨碍了不同模型之间性能的公平比较。
我们的论文通过以下主要贡献来解决这些问题。首先,我们分析了所有的训练数据和验证数据集在这些STR论文中共同使用的。揭露了STD数据集使用的不一致性和原因。例如,我们发现了7个漏掉的例子在IC03数据集上和158个漏掉的样例在IC13数据集上。我们对STR数据集上的工作进行了研究,表明不一致造成了不可以比较的结果,在Table1中。第二,我们提出了一个统一的架构用于STR,为现有方法提供一个公共的视角。明确地,我们将STR模型分成四个不同的连续阶段包括࿱

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/128809
推荐阅读
相关标签
  

闽ICP备14008679号