降维算法的简单介绍

作者：2023面试高手 | 2024-02-26 07:55:37

踩

降维算法

降维算法：通过减少数据的维度，如主成分分析和 t-分布邻域嵌入等。
降维通俗的讲，是通过减少数据的维度来处理高维数据的过程。降维算法有助于消除数据中的冗余信息，减少噪声，并提高计算效率。以下是一些常见的降维算法：

1.主成分分析（Principal Component Analysis，PCA）：
    原理： 将数据投影到一个新的坐标系，使得数据在新坐标系中的方差最大。
    特点： 通过选择主成分（新坐标系的基向量）来达到降维的效果，适用于线性数据。
	算法流程图：
		标准化数据： 对原始数据进行标准化，使每个特征的均值为0，方差为1。
		计算协方差矩阵： 计算标准化后的数据的协方差矩阵。
		计算特征值和特征向量： 对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。
		选择主成分： 选择最大的k个特征值对应的特征向量，构成投影矩阵。
		投影： 将标准化后的数据投影到选定的主成分上，得到降维后的数据。
1
2
3
4
5
6
7
8
9

import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 生成示例数据
np.random.seed(42)
data = np.random.rand(100, 2) * 10

# 使用PCA算法
pca = PCA(n_components=1)
pca_result = pca.fit_transform(data)

# 可视化原始数据和主成分
plt.scatter(data[:, 0], data[:, 1], label='Original Data', alpha=0.5)
plt.scatter(pca.components_[0, 0], pca.components_[0, 1], color='red', label='Principal Component', marker='^', s=200)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.show()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

2.t-分布邻域嵌入（t-Distributed Stochastic Neighbor Embedding，t-SNE）：
    原理： 将高维空间中的相似性映射到低维空间中，强调保留相似样本之间的距离。
    特点： 用于可视化高维数据，并保留局部结构，但不适用于全局结构。
	算法流程图：
		计算相似度： 对原始高维数据计算相似度矩阵，使用条件概率来表示数据点之间的相似度。
		定义t分布相似度： 使用t分布的概率分布来定义相似度的分布。
		随机初始化低维空间： 在低维空间中随机初始化数据点的位置。
		优化： 通过最小化高维空间和低维空间之间的相似度差异来优化低维空间的布局。这通常使用梯度下降等优化算法来完成。
		迭代： 重复步骤3和步骤4，直到达到最大迭代次数或达到收敛条件。
		
t-SNE主要用于可视化高维数据，对于大规模数据集，需要谨慎调整参数以避免计算开销过大。在实际应用中，你可能需要进行参数调整以及对结果进行解释和分析。
1
2
3
4
5
6
7
8
9
10
11

from sklearn.manifold import TSNE
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

# 加载示例数据集
digits = load_digits()
data = digits.data
target = digits.target

# 使用t-SNE算法进行降维
tsne = TSNE(n_components=2, random_state=42)
tsne_result = tsne.fit_transform(data)

# 可视化结果
plt.scatter(tsne_result[:, 0], tsne_result[:, 1], c=target, cmap='viridis', marker='o', s=50)
plt.title('t-SNE Visualization')
plt.show()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

3.多维尺度分析（Multidimensional Scaling，MDS）：
    原理： 将高维数据映射到低维空间，保持样本之间的距离。
    特点： 适用于保留全局结构，但计算复杂度较高。
	算法流程图：
 	计算相似度矩阵： 对原始高维数据计算相似度矩阵，通常使用欧氏距离或其他相似性度量。
	构建距离矩阵： 从相似度矩阵计算距离矩阵，用于表示数据点之间的距离。
	中心化矩阵： 对距离矩阵进行中心化操作，以确保在低维空间中的数据点之间的内积等于原始距离矩阵中的对应元素。
    特征值分解： 对中心化的距离矩阵进行特征值分解，得到特征值和对应的特征向量。
	选择维度： 选择要保留的低维度数量，通常是2或3。
	映射低维空间： 使用前几个特征向量，将原始高维数据映射到低维空间。
1
2
3
4
5
6
7
8
9
10

from sklearn.manifold import MDS
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

# 加载示例数据集
digits = load_digits()
data = digits.data
target = digits.target

# 使用MDS算法进行降维
mds = MDS(n_components=2, random_state=42)
mds_result = mds.fit_transform(data)

# 可视化结果
plt.scatter(mds_result[:, 0], mds_result[:, 1], c=target, cmap='viridis', marker='o', s=50)
plt.title('MDS Visualization')
plt.show()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

4.自编码器（Autoencoder）：
    原理： 通过神经网络学习数据的紧凑表示，然后将其映射到低维空间。
    特点： 由编码器和解码器组成，适用于非线性数据降维。
	算法流程图：
		构建编码器和解码器： 定义编码器和解码器的结构，通常使用神经网络。
		定义损失函数： 使用重建误差（如均方差）来定义损失函数，衡量原始输入与重建输出之间的差异。
		训练自编码器： 通过反向传播算法最小化损失函数，优化编码器和解码器的参数。
		潜在表示： 使用训练后的编码器将输入数据映射到潜在空间。
		重建数据： 使用训练后的解码器将潜在表示映射回原始输入空间，重建数据。
1
2
3
4
5
6
7
8
9

from keras.layers import Input, Dense
from keras.models import Model
from keras.datasets import mnist
import matplotlib.pyplot as plt

# 加载MNIST数据集
(x_train, _), (x_test, _) = mnist.load_data()

# 数据预处理
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0
x_train = x_train.reshape((len(x_train), -1))
x_test = x_test.reshape((len(x_test), -1))

# 构建自编码器模型
input_layer = Input(shape=(784,))
encoded = Dense(128, activation='relu')(input_layer)
decoded = Dense(784, activation='sigmoid')(encoded)

autoencoder = Model(input_layer, decoded)
autoencoder.compile(optimizer='adam', loss='mean_squared_error')

# 训练自编码器
autoencoder.fit(x_train, x_train, epochs=10, batch_size=256, shuffle=True, validation_data=(x_test, x_test))

# 使用训练后的自编码器进行数据重建
decoded_imgs = autoencoder.predict(x_test)

# 可视化原始图像与重建图像
n = 10  # 显示的图像数量
plt.figure(figsize=(20, 4))
for i in range(n):
    # 原始图像
    ax = plt.subplot(2, n, i + 1)
    plt.imshow(x_test[i].reshape(28, 28))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)

    # 重建图像
    ax = plt.subplot(2, n, i + 1 + n)
    plt.imshow(decoded_imgs[i].reshape(28, 28))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)
plt.show()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47

5.因子分析（Factor Analysis）：
    原理： 假设观察到的数据是由一些潜在的因子和噪声共同决定的。
    特点： 用于识别影响数据变异的潜在因子。
	算法流程图：
		设定模型： 确定因子分析模型的结构，包括选择因子数量和确定因子负荷矩阵。
		拟合模型： 使用最大似然估计或其他方法拟合模型参数，包括因子负荷矩阵和误差方差。
		获取因子负荷矩阵： 得到因子负荷矩阵，该矩阵描述了观测变量与潜在因子之间的关系。
		因子得分： 计算每个样本的因子得分，表示潜在因子的影响。
		解释结果： 分析因子负荷矩阵和因子得分，解释观测变量之间的共享变异性。
1
2
3
4
5
6
7
8
9

from factor_analyzer import FactorAnalyzer
import pandas as pd
import matplotlib.pyplot as plt

# 生成示例数据
np.random.seed(42)
data = pd.DataFrame(np.random.rand(100, 5), columns=['Var1', 'Var2', 'Var3', 'Var4', 'Var5'])

# 使用因子分析算法
factor_analyzer = FactorAnalyzer(n_factors=2, rotation='varimax')
factor_analyzer.fit(data)

# 获取因子负荷矩阵
factor_loadings = factor_analyzer.loadings_

# 获取因子得分
factor_scores = factor_analyzer.transform(data)

# 可视化因子负荷矩阵
plt.imshow(factor_loadings, cmap='viridis', aspect='auto', interpolation='none')
plt.colorbar()
plt.title('Factor Loadings Matrix')
plt.show()

# 打印因子得分
print('Factor Scores:')
print(factor_scores)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

6.局部线性嵌入（Locally Linear Embedding，LLE）：
    原理： 在局部对数据进行线性嵌入，保持邻近样本之间的线性关系。
    特点： 对于流形结构的数据具有良好的效果，但对噪声敏感。
	算法流程图：
		选择邻域： 对每个数据点选择其近邻数据点。
		重构权重： 对每个数据点重构其与邻域数据点之间的线性关系，即通过最小化重构误差找到权重。
		构建权重矩阵： 将所有数据点的权重组合成权重矩阵。
		嵌入低维空间： 通过最小化嵌入后的数据点在低维空间中的重构误差，找到最终的低维表示。
1
2
3
4
5
6
7
8

from sklearn.datasets import make_swiss_roll
from sklearn.manifold import LocallyLinearEmbedding
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# 生成示例数据集（三维瑞士卷）
data, color = make_swiss_roll(n_samples=1000, random_state=42)

# 使用LLE算法进行降维
lle = LocallyLinearEmbedding(n_neighbors=12, n_components=2, method='standard', random_state=42)
lle_result = lle.fit_transform(data)

# 可视化结果
fig = plt.figure(figsize=(10, 5))

# 原始三维数据可视化
ax1 = fig.add_subplot(121, projection='3d')
ax1.scatter(data[:, 0], data[:, 1], data[:, 2], c=color, cmap='viridis')
ax1.set_title('Original 3D Data')

# LLE降维后的二维数据可视化
ax2 = fig.add_subplot(122)
ax2.scatter(lle_result[:, 0], lle_result[:, 1], c=color, cmap='viridis')
ax2.set_title('LLE Embedding (2D)')
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

7.随机投影（Random Projection）：随机投影（Random Projection）是一种用于降维的快速而有效的技术，它通过随机选择投影矩阵来将高维数据映射到低维空间。
    原理： 通过将数据投影到一个低维的随机子空间来降维。
    特点： 计算效率高，对于大规模数据集适用。
    算法流程图：
		选择投影矩阵： 随机生成或选择一个投影矩阵。
		投影： 使用选择的投影矩阵将高维数据映射到低维空间。
		得到降维后的数据： 得到降维后的数据，完成降维过程。
1
2
3
4
5
6
7

from sklearn.datasets import load_digits
from sklearn.random_projection import GaussianRandomProjection
import matplotlib.pyplot as plt
import numpy as np

# 加载示例数据集
digits = load_digits()
data = digits.data
target = digits.target

# 使用随机投影算法进行降维
rp = GaussianRandomProjection(n_components=2, random_state=42)
rp_result = rp.fit_transform(data)

# 可视化结果
plt.scatter(rp_result[:, 0], rp_result[:, 1], c=target, cmap='viridis', marker='o', s=50)
plt.title('Random Projection')
plt.show()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/145026