赞
踩
多维尺度分析(Multidimensional Scaling, MDS)是一种用于降维的统计技术,其目标是将高维数据嵌入到低维空间中,同时尽量保持原始数据中点与点之间的距离关系。MDS 被广泛应用于数据可视化、心理学、市场研究等领域。以下是 MDS 的详细介绍:
MDS 的基本思想
MDS 的目标是将高维数据中的点嵌入到低维(通常是二维或三维)空间中,使得在低维空间中点之间的距离尽量接近原始高维空间中点之间的距离。这通过最小化一个损失函数(通常是应力函数)来实现,应力函数衡量的是原始距离和降维后距离之间的不一致性。
MDS 的主要步骤
计算距离矩阵:首先,计算原始数据点之间的距离矩阵。常用的距离度量有欧氏距离、曼哈顿距离等。
选择维数:选择目标低维空间的维数,通常为二维或三维,以便于可视化。
最小化应力函数:通过迭代优化方法,如梯度下降法,最小化应力函数,以找到最优的低维表示。
输出低维嵌入:将高维数据点映射到低维空间中,并输出结果。
应力函数
应力函数是衡量降维后距离和原始距离之间差异的一个指标。常用的应力函数形式如下:
其中,d_ij是低维空间中点i和j之间的距离,delta_ij是高维空间中点i和j之间的距离。
MDS 的分类
经典 MDS:也称为 Torgerson-Gower 缩放,直接通过特征值分解进行距离矩阵的降维。
非度量 MDS:对原始数据中的距离或相似度进行非度量变换,以保留原始数据中的顺序信息,而不是精确的距离值。
MDS 的优缺点
优点:
直观易懂,便于解释和可视化。
能够有效地保留高维数据的几何结构。
缺点:
对噪声和异常值较敏感。
在数据量较大时计算复杂度较高。
结果可能依赖于初始点的选择和优化过程。
Python 实现 MDS
以下是使用 MDS 对生成的苹果点云数据降维并可视化的示例代码:
- import numpy as np
- import matplotlib.pyplot as plt
- from sklearn.manifold import MDS
- import open3d as o3d
-
- # 生成模拟的苹果点云数据
- def generate_apple_point_cloud(num_points=1000):
- # 半径
- R = 1
- # 随机生成点
- phi = np.random.uniform(0, np.pi, num_points)
- theta = np.random.uniform(0, 2 * np.pi, num_points)
- x = R * np.sin(phi) * np.cos(theta)
- y = R * np.sin(phi) * np.sin(theta)
- z = R * np.cos(phi)
-
- # 生成苹果的茎
- stem_length = 0.3
- stem_radius = 0.1
- stem_points = np.array([
- [np.random.uniform(-stem_radius, stem_radius),
- np.random.uniform(-stem_radius, stem_radius),
- np.random.uniform(R, R + stem_length)]
- for _ in range(num_points // 10)
- ])
-
- apple_points = np.vstack((np.column_stack((x, y, z)), stem_points))
- return apple_points
-
- # 生成点云数据
- apple_points = generate_apple_point_cloud()
-
- # 可视化原始点云数据
- pcd = o3d.geometry.PointCloud()
- pcd.points = o3d.utility.Vector3dVector(apple_points)
- o3d.visualization.draw_geometries([pcd], window_name="Original Apple Point Cloud")
-
- # 计算点云的距离矩阵
- distance_matrix = np.linalg.norm(apple_points[:, np.newaxis, :] - apple_points[np.newaxis, :, :], axis=-1)
-
- # 使用MDS进行降维
- mds = MDS(n_components=2, dissimilarity="precomputed", random_state=42)
- apple_points_2d = mds.fit_transform(distance_matrix)
-
- # 可视化降维后的点云数据
- plt.figure(figsize=(10, 7))
- plt.scatter(apple_points_2d[:, 0], apple_points_2d[:, 1], s=1)
- plt.title('Apple Point Cloud after MDS')
- plt.xlabel('Component 1')
- plt.ylabel('Component 2')
- plt.grid(True)
- plt.show()
-
降维前数据可视化:
MDS 降维后结果(3 维->2 维):
我们再来看一个使用 MDS 对手写数字数据集(64 维)进行降维的示例代码:
- import numpy as np
- import matplotlib.pyplot as plt
- from sklearn.datasets import load_digits
- from sklearn.manifold import MDS
-
- def visualize_2d_points(points_2d, labels):
- """使用Matplotlib可视化二维点云数据"""
- plt.figure(figsize=(10, 8))
- scatter = plt.scatter(points_2d[:, 0], points_2d[:, 1], c=labels, cmap='viridis', s=50)
- plt.legend(handles=scatter.legend_elements()[0], labels=set(labels))
- plt.title('2D MDS Visualization of Digits Dataset')
- plt.xlabel('Dimension 1')
- plt.ylabel('Dimension 2')
- plt.show()
-
- def main():
- # 加载Digits数据集
- digits = load_digits()
- X = digits.data
- y = digits.target
- print("Digits Dataset Shape:", X.shape)
-
- # 使用MDS进行降维,从多维降到二维
- mds = MDS(n_components=2, random_state=42)
- X_2d = mds.fit_transform(X)
- print("2D Points (First 5 points):\n", X_2d[:5])
-
- # 可视化降维后的二维点云
- visualize_2d_points(X_2d, y)
-
- if __name__ == "__main__":
- main()
-
MDS 将为结果(64 维->2 维):
通过 MDS 降维后,我们可以直观地观察数据的分布和聚类情况。上图中,各类手写数字形成了明显的聚类,表明不同数字之间存在显著的模式和特征差异。例如,某些聚类中心较为紧凑,说明这些数字在特征空间中相似度较高;而有些聚类则相对分散,表明这些数字之间的特征差异更大。这种可视化不仅帮助我们理解手写数字数据集的内在结构,还能够为后续的分类或聚类任务提供有价值的见解。通过观察这些聚类,我们可以进一步优化特征提取和模型选择,从而提升分类算法的准确性和鲁棒性。
以上内容总结自网络,如有帮助欢迎转发,我们下次再见!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。