使用python简单实现三种常见的降维方法：PCA、t-SNE和Umap（降到二维进行可视化）_pytorch umap分类可视化

作者：从前慢现在也慢 | 2024-02-26 08:10:47

踩

pytorch umap分类可视化

三种常见的降维方法：PCA、t-SNE和Umap

1.PCA

主成分分析方法(Principal Component Analysis，PCA)是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

import seaborn as sns  #定义seaborn包
'''seaborn是python中的一个可视化库，是对matplotlib进行二次封装而成，
因为是基于matplotlib，所以seaborn的很多图表接口和参数设置与其很是接近。'''
from sklearn.decomposition import PCA   #导入PCA
X_pca = PCA(n_components=2).fit_transform(train_x_fea)   
# n_components为PCA的参数，所要保留的主成分个数n，也即保留下来的特征个数n
# train_x_fea为需要降维的数据
X_pca = np.vstack((X_pca.T, train_y)).T  #把降维后的数据和标签按垂直方向（行顺序）堆叠数组构成一个新的数组
df_pca = pd.DataFrame(X_pca, columns=['1st_Component','2n_Component','label'])   #把降维后的数据和标签进行组合
df_pca.head()
plt.figure(figsize=(6, 6))  #定义输出图像大小
sns.scatterplot(data=df_pca, hue='label',x='1st_Component',y='2n_Component')   #画散点图，定义X/Y轴
plt.rcParams['xtick.direction'] = 'in'  #plt.rcParams主要作用是设置画的图的分辨率，大小等信息
plt.rcParams['ytick.direction'] = 'in'
plt.title('PCA visualization of features')  #定义标题
plt.legend(loc='best')  #在最合适的地方显示便签
plt.savefig('PCA visualization of features.jpg')  #保存图片
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

2.t-SNE

t-分布领域嵌入算法(t-Distributed Stochastic Neighbor Embedding，t-SNE)是一种降维技术，用于在二维或三维的低维空间中表示高维数据集，从而使其可视化。与其他降维算法(如PCA)相比，t-SNE创建了一个缩小的特征空间，相似的样本由附近的点建模，不相似的样本由高概率的远点建模。

from sklearn.manifold import TSNE 
tsne = TSNE(n_components=2) 
X_tsne = tsne.fit_transform(train_x_fea) 
X_tsne_data = np.vstack((X_tsne.T, train_y)).T 
df_tsne = pd.DataFrame(X_tsne_data, columns=['Dim1','Dim2','label']) 
df_tsne.head()
plt.figure(figsize=(6, 6)) 
sns.scatterplot(data=df_tsne,hue='label',x='Dim1',y='Dim2')
plt.title('T-SNE visualization of features')
plt.legend(loc='best')
plt.savefig('T-SNE visualization of features.jpg')
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12

3.Umap

UMAP（Uniform Manifold Approximation and Projection for Dimension Reduction，一致的流形逼近和投影以进行降维）。一致的流形近似和投影（UMAP）是一种降维技术，类似于t-SNE，可用于可视化，但也可用于一般的非线性降维。

import umap
import  seaborn as sns
umap = umap.UMAP(n_components=2) 
X_umap = umap.fit_transform(train_x_fea) 
X_umap_data = np.vstack((X_umap.T, train_y)).T 
df_umap = pd.DataFrame(X_umap_data, columns=['Dim1','Dim2','label']) 
df_umap.head()
plt.figure(figsize=(6, 6)) 
sns.scatterplot(data=df_umap,hue='label',x='Dim1',y='Dim2')
plt.title('Umap Visualization of features')
plt.legend(loc='best')
plt.savefig('Umap visualization of features.jpg')
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13

可编辑标签的Umap可视化

#使用标签分隔类（监督 UMAP）
import umap
import  seaborn as sns
train_y = pd.DataFrame(train_y)
dic = {0:'non ac4C',1:'ac4C'}
ls = []
for index,value in train_y.iterrows():
    arr = np.array(value)[0]
    ls.append(dic[arr])
embedding = umap.UMAP().fit_transform(train_x_fea,train_y)
plt.figure(figsize=(6, 6))
sns.scatterplot(embedding[:,0],embedding[:,1],hue=ls,palette='Set1',sizes=10)
plt.gca().set_aspect('equal', 'datalim')
plt.title('Umap visualization of features')
plt.xlabel('umap1')
plt.ylabel('umap2')
plt.legend(loc='best')
plt.savefig('Umap visualization of features.pdf')
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

List item

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/145087