赞
踩
保研之后也开始了新的学习,关于场景文本识别这块还是入门新手级别,所以想借此来书写这一段时间以来所阅读的相关论文并记录一下自己在阅读过程的理解,如果有不足和错误的地方还请大家多多指正。下面就是自己将要介绍的几篇论文,之后我都将使用其简称来代替论文:
根据作者的工作内容我们可以提取其创新点为一下几个方面:
对于RARE来说,这篇文章的作者和上面的CRNN其实是一个作者,也从中看出大佬在不断的完善其工作。上面我们也提及了CNN提取的特征是一个区域一个区域的提取,那么对于那些弯曲或者由于仿射变换导致文本是不常规的分布以及存在大量的背景像素使用CNN提取到的每一个特征其实有些序列存在大量冗余的信息或者有些特征会受到影响,比如下面的输入图片和经过本文矫正之后的图片(里面有用的信息大大提升同时背景信息也大大减少):
里面红色的内容就是大量冗余的背景信息,经过校正之后字符序列是比较水平的分布并且背景信息大大减少。
随着注意力机制的使用虽然提升了网络的性能,但是作者将注意力的机制进行可视化之后发现在输出时注意力在原始图片上的中心点有的时候会与字符的位置产生偏移,作者基于此提出一个新的名词:注意力漂移
相比前面的文章都是对某一个问题出发提出一个新的模块或者具有代表性的模型,而本文中作者基于原来的对于每个位置上的字符预测概率损失转化为对于某个字符的个数预测正确的概率损失:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。