赞
踩
作者:Yangyang Li*, Senior Member, IEEE, Qi Wang, Xiaoxu Liang and Licheng Jiao, Fellow, IEEE
单位及邮箱:Key Laboratory of Intelligent Perception and Image Understanding of Ministry of Education, International Research Center for Intelligent Perception and Computation, Joint International Research Laboratory of Intelligent Perception and Computation, School of Artificial Intelligence, Xidian University, Xi’an, Shaanxi Province, 710071, China *yyli@xidian.edu.cn
在这篇论文中,我们研究了一种新型深度特征网络应用于遥感场景分类问题。到目前为止,许多经典的卷积神经网络模型都字图像分类中展示出良好的表现。随着新的高分辨率遥感图像数据的应用,传统的CNN模型表现下降明显。为了解决这种情况,这些深度卷积神经网络都应用于最近的研究.他们分类的准确率取决于网络的深度,而更深的网络将会带给更高的计算度和复杂度.在这个工作中我们采用一个深度特征融合模型用于遥感场景分类,分别在预训练和微调后的ResNet50和VGG16模型提取深度特征.实验数据的分析提供了特征融合网络在遥感场景分类的可行性.
遥感场景分类在很多地理空间应用中都起着至关重要重要的作用.比如说,遥感场景分类是在勘测地理空间物体中的一个关键步骤[1].在过去的几年中,遥感技术有着一个很大的进步从而使大量的遥感场景图像数据集(标签)变成公开且可使用.然而,这些数据集大多数都有较高的类内差异和较小的类间不同[2].使用这些数据集在场景分类上是很大的挑战,对于大多数现存的传统方法(自1970发展)对完成优化分类准确率效果不佳,主要是因为在这些图像中有可用的更好的目标细节无法捕获[3].因此,对这些数据集快速且有效的方法必不可少.
提取不同的特征在遥感场景分类是关键的一步,这类似于自然图像分类.绝大多数以前可用于场景分类的方法都基于三种不同类型的特征:低级视觉特征,中级视觉表示和高级视觉信息[2].低级视觉特征的提取主要是基于局部图像的信息,像颜色,纹理,梯度,局部结构,例如局部二值模式(LBP)[4],颜色直方图(CH)[5],GIST [6] ],尺度不变特征变换(SIFT)[12]等。中级视觉表示方法主要包括2个步骤:提取低级特征和通过编码低级特征建立特征表示.视觉词袋(BoVW) 模型[7]是最受欢迎的中层特征表示方法之一.高层方法采用像卷积神经网络结构去学习高层特征信息,这些结构能自动的在图像中提取信息.
自2012年以来,深度卷积神经网络广泛应用于去解决各种分类问题.得益于ImageNet大规模视觉识别挑战(ILSVRC),许多框架(例如AlexNet [8],GoogLeNet [9],VGGNet [10])应运而生。在ILSVRC’12中,AlexNet以15.3%的测试错误率赢得前五名[8],在ILSVRC’14中,GoogLeNet 以6.67%的测试错误率在前五中获得了冠军,VGGNet以6.8%的测试错误率得到了亚军.考虑到这些网络的灵活性以及遥感场景图像与ImageNet数据集的自然图像之间的高度相似性,许多研究者使用在ImageNet 上的预训练网络模型来对遥感场景进行分类[11].来自他们的研究表面,在使用卷积审计网络后这种分类的准确率有显著的提升.
在ILSVRC’15中,通过评价一个高达152层的残缺网络提出了一个残缺学习框架.他们以3.57%测试错误率赢得了前五.深度ResNet是效果最好的卷积神经网络之一,也在许多计算视觉任务上也达到了最先进的性能.
在这篇论文中,我们研究特征融合模型应用于遥感场景分类的性能.我们使用的特征向量来自VGG16和ResNet50在softmax层之上的最后一层,然后输入到线性分类器中.他们都有良好的性能在ImageNet 数据库且VGG16有良好的传输能力.具体的方法会在第二部分描述.
训练一个性能好的CNN模型,充足的数据是必不可少的.如果训练数据不充足,尤其是当我们训练复杂度网络模型,将会导致一个严重的过拟合模型.有许多方法被提出就是解决这个问题.另外对于改良的网络模型,提高训练数据也是有效的方法.
增强图像数据的主要方法是使用某些数字图像处理方法对图像进行几何变换,例如翻转,旋转/反射,缩放,缩放,移位,噪声,颜色等。
微调预训练的CNN模型是对于提升最后的分类性能的一个重要的选择,特别的是当数据集非常小不能去训练一个新的神经网络的时候.在这篇论文中,ImageNet 预训练模型被迁移就是为了解决遥感场景分类中的这些问题,预训练模型网络用遥感数据来微调.正如图一所显示,我们只需要微调高层和保持其他层不变.
图一:目标数据集上经过微调的CNN架构的图示
不同的模型在相同的数据上有不同的表达形式.我们可以联合不同的模型来得到一个效果更好的模型.在这篇论文中我们选择VGG16和ResNet50来验证在遥感场景图像分类上特征融合网络的有效性,因为他们都有良好的性能在ILSVRC上.
所使用的预训练网络(即VGG16,ResNet50)的输入图像的大小为像素.为了执行这些网络输入的标准,把UCM数据集原来大小为256256像素采样为244244像素大小.处理VGG16,我们提取全连接层的第一层作为输出,他的维度大小为4096.对于ResNet50,我们选择最后均值池化层的输出作为特征向量,其尺寸大小为2048.把这两个特征向量直接堆叠融合成一个维度为6144的特征向量就想图二一样.将获得的新特征向量馈入使用Logistic回归构建的线性分类器
图二:ResNet50和VGG16的深度特征融合网络经过预训练和微调,可用于遥感场景分类
验证遥感场景分类方法的性能,我们采用公开可获得的遥感数据集:UC Merced 数据集[7]和NWPU-RESISC45 数据集[3].实验的细节和获得对比结果的说明会在下方展示…
UC Merced 数据集(UCMD)[7]包括21个场景类别.每一个场景类都有100张大小为256256像素且空间分辨率为1英尺的图像.每个UCMD类的样本图像如图3所示
NWPU-RESISC45 [3]数据集采集于谷歌地球上的卫星图像,NWPU-RESISC45数据集总共有31500张遥感图像其中有45个类别.每一个类别大小为256256像素,颜色空间为红绿蓝(RGB),数量为700张.每个NWPU-RESISC45类的一些样本图像如图4所示。
图三:UCMD的21个类别的样本图像
图四:来自NWPURESISC45数据集的45个类别的样本图像。
综合精度(OA)和混淆矩阵在这个实验中被用于定量比较分类结果.混淆矩阵是一个著名的误差矩阵[15],是一种特定的表格布局,可以可视化算法的性能.矩阵的每一行代表一个预测类中的实例,而每一列代表一个实际类中的实例(反之亦然)[14]
我们在监督分类过程中对两个不同的数据集采用不同的设置,即训练数据不同且连续.对于UCM数据集,我们考虑用50%和80%数据用于训练,其他的数据用于测试.对于 NWPU-RESISC45数据集,考虑用于10%和20%用于训练,其他用于测试.我们将训练数据集提高10倍,而测试数据集保持不变,这个实验在每一个网络中重复进行10次.
这个实验的结果总结如表1-3.结果基于底层视觉特征如表1所示.表2展示的是不同的深度网络模型得到的不同的结果.表3展示的是微调网络模型提取特征和特征融合的分类精度.这个获得的结果显示特征融合结构的分类性能要比其他所有的网络模型好,根据5-6的混淆矩阵显示,不同的类别精度都有明显的提高.这个实验展示了来自不同的CNN模型的不同特征融合能提高特征的表达能力,从而导致提高分类准确率.
我们从表3看到.与微调的ResNet50相比,在OA方面来说,NWPU45数据集上的特征融合模型比 UCMD 数据集上的要好.我们考虑是因为不同的数据集有不同的规模,特征融合网络在大规模的数据集上有更好的效率.
在本文中,我们通过从预先训练和微调的ResNet50和VGG16模型中提取特征,将特征融合网络应用于遥感场景分类。 我们提取这两个模型上softmax层之前的最后一层的特征向量,然后将它们提供给 Logistic回归分类器。 通过使用两个公共的和可用的数据集(UC Merced和NWPU-RESISC45数据集),并与先前可用的预训练模型进行比较,评估了特征融合网络的性能。 结果表明,特征融合方法可以增加特征的多样性,在分类准确度方面,特征融合架构优于其他模型。
This work was supported by the National Natural Science Foundation of China under Grant 61772399, Grant U1701267, Grant 61773304, Grant 61672405 and Grant 61772400, the Program for Cheung Kong Scholars and Innovative Research Team in University Grant IRT_15R53, the Fund for Foreign Scholars in University Research and Teaching Programs (the 111 Project) Grant B07048, and the
Technology Foundation for Selected Overseas Chinese Scholar in Shaanxi under Grant 2017021 and Grant 2018021.
这项工作得到了中国国家自然科学基金的资助,分别为61772399,U1701267、61773304、61672405和61772400,长江学者计划和大学创新研究团队计划IRT_15R53,外国留学生基金 研究和教学计划(“ 111”计划)B07048,以及陕西省海外华人学者技术基金会(2017021和2018021)
[1] Han J , Zhang D , Cheng G , et al, “Object Detection in Optical Remote Sensing Images Based on Weakly Supervised Learning and High-Level Feature Learning,” IEEE Transactions on Geoscience and Remote Sensing, vol. 53, pp. 3325-3337, 2015. [2] Xia G S, Hu J, Hu F, et al, “AID: A Benchmark Data Set for Performance Evaluation of Aerial Scene Classification,” IEEE Transactions on Geoscience and Remote Sensing, pp. 1-17, 2017. [3] Li H, Tao C, Wu Z, et al, “RSI-CB: A Large Scale Remote Sensing Image Classification Benchmark via Crowdsource Data,” Proceedings of the IEEE, pp. 1-19, 2017. [4] Ojala T, Pietikainen M, Maenpaa T, “Multiresolution grayscale and rotation invariant texture classification with local binary patterns,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, pp. 971-987, 2000. [5] Swain M J, Ballard D H, “Color indexing,” International Journal of Computer Vision, vol. 7, pp. 11-32, 1991. [6] Oliva A, Torralba A, “Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope,” International Journal of Computer Vision, vol. 42, pp. 145-175, 2001. [7] Yang Y, Newsam S, “Bag-of-visual-words and spatial extensions for land-use classification,” Sigspatial International Conference on Advances in Geographic Information Systems, pp. 270-279, 2010. [8] Krizhevsky A, Sutskever I, Hinton G, “Imagenet classification with deep convolutional neural networks,” International Conference on Neural Information Processing Systems, Curran Associates Inc, pp. 1097-1105, 2012. [9] Szegedy C, Liu W, Jia Y, et al, “Going Deeper with Convolutions,” pp. 1-9, 2014. [10] Simonyan K, Zisserman A, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” Computer Science, 2014. [11] Nogueira K, Penatti O A B, Santos J A D, “Towards Better Exploiting Convolutional Neural Networks for Remote Sensing Scene Classification,” Pattern Recognition, vol. 61, pp. 539-556, 2017. [12] Vladimir Risojević, Snježana Momić, Zdenka Babić, “Gabor Descriptors for Aerial Image Classification,” Proceedings of the 10th international conference on Adaptive and natural computing algorithms, pp. 51-60, 2011. [13] He K, Zhang X, Ren S, et al, “Deep Residual Learning for Image Recognition,” IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, pp. 770-778, 2015. [14] Powers, David M W, “Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation,” Journal of Machine Learning Technologies, vol. 2, pp. 37–63, 2013. [15] Stehman, Stephen V, “Selecting and interpreting measures of thematic classification accuracy,” Remote Sensing of Environment, vol. 62, pp. 77–89, 1997.
这篇论文翻译出来是作为学习笔记,如果您是作者,不允许我翻译您的论文放在CSDN上,请私信我删除。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。