赞
踩
数据降维方法:特征选择、主成分分析
特征选择的主要方法
(1)Filter(过滤式):VarianceThreshold
(2)Embedded(嵌入式):正则化、决策树
(3)Wrapper(包裹式)
(4)神经网络
sklearm.feature_selection.VarianceThreshold
注:Variance:方差
from sklearn.feature_selection import VarianceThreshold def var(): """ 特征选择---删除低方差的特征 :return: None """ var= VarianceThreshold(threshold=0.0) data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]) print(data) return None if __name__ == '__main__': var()
运行结果:
参考:https://blog.csdn.net/u010159842/article/details/52708906?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159858103719725219948352%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=159858103719725219948352&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_ecpm_v3~pc_rank_v3-4-52708906.pc_ecpm_v3_pc_rank_v3&utm_term=%E4%B8%BB%E6%88%90%E5%88%86%E5%9B%9E%E5%BD%92python&spm=1018.2118.3001.4187
主要思想:
PCA是一种分析、简化数据的技术,其目的是压缩数据的维数,达到用低维信息表示高维信息的目的——可以减少回归分析或者聚类分析中特征的数量。
很可能一部分特征之间存在相关性(冗余),如:
因此,在特征数量达到上百的时候,考虑用PCA进行数据的简化(数据会改变,特征数量也会减少)
sklearn.decomposition.PCA
from sklearn.decomposition import PCA
def pca():
pca = PCA(n_components=0.9)
data = pca.fit_transform([[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]])
print(data)
return None
if __name__ == '__main__':
pca()
运行结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。