赞
踩
局部敏感哈希(Locality sensitive hashing, LSH)是一种广泛应用于高维空间的近似最近邻(capproximate nearest neighbor, c-ANN)搜索算法。现有的基于LSH的算法在无界和不规则的空间中搜索候选项,降低了效率。为了解决这个问题,引入了虚拟超球划分的概念。其核心思想是在原始特征空间中施加一个以查询为中心的虚拟超球体,并且只检测超球体内的点。超球体的搜索空间是各向同性的、有界的,因此比现有的搜索空间更有效。在实际应用中,我们在相应的投影子空间中使用多个不同半径的物理超球来模拟单个虚拟超球。我们还提出了一种原则性的方法来计算给定成功概率下的超球半径。
基于虚拟超球划分,本文提出了一种新的基于磁盘的c-ANN索引和搜索方案VHP。在索引阶段,VHP使用独立的B+树存储LSH投影。在处理查询时,VHP协调地不断增大物理超球的半径,相当于扩大虚拟超球,以容纳更多的候选对象,直到满足成功概率。严格的理论分析表明,该算法能够以概率保证支持任意小的c≥1的c- ann搜索。在各种数据集上进行的广泛实验,包括数十亿规模的数据集,表明VHP可以在效率和准确性之间实现不同的权衡,在运行时间上比最先进的方法提高了2倍。
提出了一种基于虚拟超球划分的高效c-ANN算法VHP,用于搜索基于磁盘的大数据集。在索引阶段,VHP使用独立的B+树存储LSH投影。在处理查询时,VHP协调地不断增大物理超球的半径,相当于扩大虚拟超球,以容纳更多的候选对象,直到满足成功概率。严格的理论分析表明,该算法能够以概率保证支持任意小的c≥1的c- ann搜索。在10亿级数据集上的实验结果表明,VHP是一种较好的cANN搜索算法。
5. VIRTUALHYPERSPHEREPARTITIONING
鉴于QALSH算法的局限性,我们建议使用一个以查询为中心的、各向同性的、有界的超球体来划分原始特征空间,以区分有希望候选项和不相关候选项。其思想如图1所示,超球的内部区域是搜索空间。由于直接在原始空间中设置一个实超球比较困难,因此提出使用多个物理超球来达到相同的目的。在我们提出我们的建议之前,需要一些符号和定义。
物理超球体的半径取决于给定查询和它的NN之间的距离。
DETERMINE THE RADII OF PHYSICAL HYPERSPHERES
6.2 Estimate the Virtual Radius for One Physical Hypersphere
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。