赞
踩
针对格式、字体较为标准的文字识别可以做到比较高的准确率。而在复杂场景中定位并识别出文字仍然有待提高的空间。
下面介绍的论文是2016年发表在IJCV上的论文Reading Text in theWild with Convolutional Neural Networks。
该论文中使用的数据集为 32 ∗ 100 ∗ 1 32*100*1 32∗100∗1的图像,通过对原始图像做shadow、composition、projection等扩充数据集。整个系统设计为一个端到端(end-to-end)的系统。具体的流程为:① 从原始图像中提取出初始的bounding box,该步骤要尽量有较高的召回率,以便后续步骤refine能够得到较高的准确率;② 对初始的candidate bounding box筛选,该部分使用一个二分类的random forest 分类器,该分类器判断一个bounding box中是否包含字符。此外,可以使用Non-maximal Supression 去除冗余的bounding box;③ 使用CNN 对筛选后的bounding box回归,得到一个较好地边界值;④ 使用CNN(与前一个步骤的CNN不同)对bounding box中的字符识别;⑤ 最后,对结果进行一些后处理,例如merg等。
由于高准确率与高召回率之间存在一个trade off,并且后续步骤会对初始的bounding box 进一步的refine。因此初始生成的 bounding box 要取得尽量高的召回率。该部分衡量bounding box准确率的指标采用IoU,即一个bounding box b ~ \widetilde{b} b 与ground truth bounding box b ∗ b^* b∗,IoU( b ~ , b ∗ \widetilde{b},b^* b ,b∗)= b ~ ∩ b ∗ b ~ ∪ b ∗ \frac{\widetilde{b}\cap b^*}{\widetilde{b} \cup b^*} b ∪b∗b ∩b∗。论文中,该部分采取结合Edge Boxs候选区域算法以及weak aggregate channel features detector的方式。
Edge Box候选区域生成算法基于的想法是,每个object都是自包含(self contained)的。因此,通过object的边可以得到其大致的范围,如果object的某个边没有完全包含在bounding box里面(cross the border of bounding box),则说明这个bounding box没有完全包住该object。该论文中,对每个bounding box都计算一个score s b s_{b} sb,该score的计算是根据object完全包含在bounding box b b b中的edge个数计算得出的,即 s b = e d g e i n e d g e t o t a l s_{b}=\frac{edge_{in}}{edge_{total}} sb=
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。