赞
踩
统一流形逼近和投影 (UMAP) 是一种降维技术,可用于类似于 t-SNE 的可视化,但也可用于一般的非线性降维。UMAP 是一种基于流形学习技术和拓扑数据分析思想的降维算法。它为处理流形学习和降维提供了一个非常通用的框架,但也可以提供具体的具体实现。
该算法基于对数据的三个假设:
数据均匀分布在黎曼流形上;
黎曼度量是局部常数(或可以近似);
歧管是本地连接的。
根据这些假设,可以用模糊拓扑结构对流形进行建模。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来找到嵌入。
UMAP与 t-SNE 相比,它提供了许多优势,最显着的是提高了速度并更好地保存了数据的全局结构。
UMAP 的核心与 t-SNE 非常相似——两者都使用图形布局算法在低维空间中排列数据。在最简单的意义上,UMAP 构建数据的高维图表示,然后优化低维图以使其在结构上尽可能相似。虽然 UMAP 用于构建高维图的数学是先进的,但它们背后的直觉却非常简单。
为了构建初始的高维图,UMAP 构建了一个叫做“模糊单纯复形”的东西。这实际上只是加权图的表示,边权重表示两个点连接的可能性。为了确定连通性,UMAP 从每个点向外扩展一个半径,当这些半径重叠时连接点。选择这个半径很关键——选择太小会导致小而孤立的集群,而选择太大会将所有东西连接在一起。UMAP 通过根据到每个点n的距离在本地选择半径来克服这一挑战th 最近的邻居。UMAP 然后通过随着半径的增长降低连接的可能性来使图形“模糊”。最后,通过规定每个点必须至少连接到其最近的邻居,UMAP 确保局部结构与全局结构保持平衡。
UMAP
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。