赞
踩
刊物:ICDAR 2017
作者:MengYi En,Beijing University of Technology
内容:OCR,多尺度场景下的文本检测
问题:CNN网络在文本检测时,高层特征图丢失低层细节,导致小目标检测效果差。
本文方案:提出一种基于特征金字塔的文本检测器(Feature Pyramid based Text Detector,FPTD)。该框架基于SSD(Single Shot Detector)目标检测算法,但同时结合特征金字塔思想,采用一种自上向下的特征融合策略,获取新的特征,既包含高层分辨能力强的语义信息特征又包含低层高分辨率且细节完整的特征。
大致流程:文本检测会在多个融合的特征上独立发生,结果再汇集之后进行非最大值抑制(Non-maximum Suppression,NMS),由于特征图来自不同层,它们都包含了高层的语义信息,且尺度不同,所以该框架能够处理不同尺度场景下的文字检测。
实验结论:本文框架在增加微弱额外开销的情况下,在ICDAR2013文本标定数据集上取得很好的效果。
ps:其实本文就是FPN网络在OCR领域的应用。本文的框架思想是完全借鉴于特征金字塔网络的。
Feature Pyramid Networks for Object Detection,CVPR2017
相比传统的OCR(optical character recognition),复杂场景下的文本定位和识别存在很多困难,如文字失真扭曲
、图像模糊、光线不均、背景复杂、字符交错、颜色尺寸及文字方向多变等问题。
CNN具有强大的特征学习能力,但是在多尺度检测问题上存在不足。本文提出一种融合高低各层特征图的特征金字塔方法用于不同尺度的场景文本的检测。
本文主要贡献:
主要介绍介绍三个方面的相关研究进展——基于深度网络的物体检测算法、场景文本检测算法和多尺度特征问题。
深度网络的目标检测算法
得益于近年来物体检测算法的发展,基于深度网络的场景文本检测算法逐渐流行。
目标检测中的多尺度问题
传统方式是将图像金字塔作为输入,但是深度网络中多尺度图片同时输入对内存消耗太高。GoogLeNet采用在单尺度图像上进行多尺度滤波来解决多尺度问题。Faster R-CNN通过引入多尺度和不同aspect ratio的anchor boxes来处理不同尺度问题,但由于其特征图来自最后的卷积层,导致分辨率粗糙,影响小目标的检测性能。
FCN、HyperNet、ParseNet、RCF及FPN等方法被提出以解决目标识别中的尺度问题。
本文提出的FPTD如下图所示。其基于SSD框架,采用VGG-16网络,但是fc6和fc7由全连接层变成卷积层,然后增加额外的层(从conv6_1到pool6)
网络主体的旁边添加了数个新的层,形成一条旁路。包括反卷积层,元素累加层及构建新特征的层。图片进入网络会经过网络的两个路径。网络的主框架(backbone)完成特征的提取,而旁路层构建新的特征。
随着网络加深,主架上提取的特征分辨率降低,底层细节逐渐丢失,但语义加强。从不同的网络层对应的旁路上的构建新特征形成了一个特征金字塔。
采用高层和低层融合的方式得到空间细节饱满同时语义信息丰富的特征。但是,融合不同层特征图面对一个问题:不同层的特征图通常在尺度和规模上差异明显(统计各层的activation可得,见下图Table1)。比如直接融合高层和低层得特征图,则得到得结果特征图由“大值”主导(即值小的那层的信息作用甚微)。
下图说明了特征融合的过程。首先将高层低分辨率的特征图反卷积,这样两部分尺寸(分辨率)契合。再对高分辨率的低层特征图做1×1的卷积。最后两部分按元素相加。再对结果做一个3×3的卷积得到最终融合的特征图。
此处1×1的卷积作用如下:
下图可见经过1×1的卷积,不同层的activation的统计量基本达到相似范围。
之后再通过一个3×3的卷积抽取更多语义信息,同时减小上采样带来的不利影响。
loss function由分类loss和定位loss组成:
N是正prior boxes样本数,Lloc采用L1 loss,Lconf采用2分类的softmax loss。a是权重项,这里设为1。
对ICDAR 2013的文本定位任务进行了一系列实验,采用场景文本数据库。评估协议是ICDAR2013的评估尺度。
使用两个数据集进行整个实验。
使用TextBox作为基准模型。测试结果如下
此处FPTD采用的是实验中FPTD-3,本文的方法获得更高的召回率,同时F-measure指标也很不错。
ps:本文偏重于工程实现,创新新并不强,这种情况下,实验的充分与否就很重要了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。