场景文字识别_场景词语义识别

作者：菜鸟追梦旅行 | 2024-06-09 05:17:16

踩

场景词语义识别

文章目录

1. 简介
2. 初始bounding box生成
- 2.1 Edge Box候选区域生成
- 2.2 Aggregate Channel Feature Detector
3. Bounding Box 筛选
4. 文字识别
5. Bounding Box的合并与排序
6. 图像检索
7. 总结

1. 简介

针对格式、字体较为标准的文字识别可以做到比较高的准确率。而在复杂场景中定位并识别出文字仍然有待提高的空间。
下面介绍的论文是2016年发表在IJCV上的论文Reading Text in theWild with Convolutional Neural Networks。
该论文中使用的数据集为 $32 * 100 * 1$ 的图像，通过对原始图像做shadow、composition、projection等扩充数据集。整个系统设计为一个端到端(end-to-end)的系统。具体的流程为：① 从原始图像中提取出初始的bounding box，该步骤要尽量有较高的召回率，以便后续步骤refine能够得到较高的准确率；② 对初始的candidate bounding box筛选，该部分使用一个二分类的random forest 分类器，该分类器判断一个bounding box中是否包含字符。此外，可以使用Non-maximal Supression 去除冗余的bounding box；③ 使用CNN 对筛选后的bounding box回归，得到一个较好地边界值；④ 使用CNN（与前一个步骤的CNN不同）对bounding box中的字符识别；⑤ 最后，对结果进行一些后处理，例如merg等。

2. 初始bounding box生成

由于高准确率与高召回率之间存在一个trade off，并且后续步骤会对初始的bounding box 进一步的refine。因此初始生成的 bounding box 要取得尽量高的召回率。该部分衡量bounding box准确率的指标采用IoU，即一个bounding box $\widetilde{b}$ 与ground truth bounding box $b^*$ ，IoU( $\widetilde{b},b^*$ )= $\frac{\widetilde{b}\cap b^*}{\widetilde{b} \cup b^*}$ 。论文中，该部分采取结合Edge Boxs候选区域算法以及weak aggregate channel features detector的方式。

2.1 Edge Box候选区域生成

Edge Box候选区域生成算法基于的想法是，每个object都是自包含(self contained)的。因此，通过object的边可以得到其大致的范围，如果object的某个边没有完全包含在bounding box里面（cross the border of bounding box），则说明这个bounding box没有完全包住该object。该论文中，对每个bounding box都计算一个score $s_{b}$ ，该score的计算是根据object完全包含在bounding box $b$ 中的edge个数计算得出的，即 $s_{b}=\frac{edge_{in}}{edge_{total}}$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/692770

场景文字识别_场景词 语义识别

文章目录

1. 简介

2. 初始bounding box生成

2.1 Edge Box候选区域生成

场景文字识别_场景词语义识别