赞
踩
神经网络的数据预处理过程
常用的集中预处理操作——
1、去均值:最常见的数据处理操作。
对待训练的每一张图片的特征,都减去全部训练集图片的特征均值,这么做的直观意义就是,我们把输入数据各个维度的数据都中心化到0了。
2、归一化
归一化的目的是保证所有的维度上数据都在一个变化幅度上。通常有两种方法可以实现归一化。一个是在数据都去均值之后,每个维度上的数据都除以这个维度上数据的标准差(X /= np.std(X, axis = 0))。另外一种方式是除以数据绝对值最大值,以保证所有的数据归一化后都在-1到1之间。
3、PCA
去均值之后,可以计算数据的协方差矩阵,以知道数据各个维度之间的相关性。同时,协方差矩阵是对称的,因此可以进行奇异值分解,得到特征值和特征向量。可以根据top的协方差矩阵进行降维,这就是PCA降维的原理
4、白化whitening
把各个特征轴上的数据除以对应特征值,从而达到在每个特征轴上都归一化幅度的结果。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。