赞
踩
###欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!
作者:Geppetto
在机器学习中,离散化(Discretization)和特征选择(Feature Selection,FS)是预处理数据的重要技术,提高了算法在高维数据上的性能。由于许多FS方法需要离散数据,所以通常的做法是在FS之前对数据进行离散化。此外,为了提高效率,特征通常单独(或单变量)离散。这种方案的原理是基于假定每个特征都是独立的,但是当特征之间存在交互时,这种方案可能不成立。因此,单变量离散化可能会降低FS的性能,因为在离散化过程中可能会因为特征之间存在交互而丢失部分信息。在生物信息学、基因组学、图像处理、文本分类等不同领域的机器学习应用中,越来越多的高维数据集具有成千上万的特性。这些数据集通常有大量的冗余特征和不相关的特征,我们可以称之为噪声,这是对学习算法的新能有负面影响的。因此,特征选择(Feature Selection,FS)通常是一个关键的预处理步骤,用于选择许多机器学习任务的相关特性,例如分类和聚类。在本文中,我们将重点放在FS的分类问题上。尽管许多研究已经证明了在高维数据中使用特征选择的有效性,但是由于大的搜索空间和特征交互的存在,这任然是一个具有挑战性的研究。
除了特征选择,离散化也是对高维数据预处理的关键。首先,许多学习算法只适用于离散的数据。此外,通过离散化,可以忽略数据中一些微小的波动或可能的噪声。这样,离散化就有助于提高学习算法的有效性和效率。最后,因为离散数据比联系数据更紧凑,那么需要的内存就相对较少,从而提高了学习算法的效率。因此,特征选择和离散化通常用于提高分类性能&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。