赞
踩
FAISS是Facebook AI Research团队开源的用于高效相似度搜索和密度聚类的库,主要应用于大规模向量数据的快速最近邻搜索。
FAISS的两个主要特性:
原理: FAISS的核心思想是将向量空间嵌入到比原始空间更紧致、更容易处理的空间,在这个新空间里,原有向量间的相对位置关系保持不变或者说变得更符合某些度量。这个过程一般涉及两个步骤:量化和编码。
FAISS主要包含两类索引:暴力搜索索引(精确)和逼近索引(近似)。
暴力搜索索引:将向量在CPU或者GPU上使用基于余弦相似度或者欧式距离的全量计算,寻找最相近的向量。
逼近索引:借助聚类或其他技术做相似度近似计算。这样做的结果通常是不精确的,但准确度对于某些应用足够用了,且计算上更高效。
使用:
- import numpy as np
- import faiss
-
- d = 64 # dimension
- nb = 100000 # database size
- np.random.seed(1234) # make reproducible
- xb = np.random.random((nb, d)).astype('float32')
- xb[:, 0] += np.arange(nb) / 1000.
-
- index = faiss.IndexFlatL2(d) # build the index, L2 向量
- print(index.is_trained)
- index.add(xb) # add vectors to the index
- print(index.ntotal)
-
- D, I = index.search(xb[:5], 4) # sanity check
- print(I)
- print(D)
以上脚本建立了一个L2距离的暴力搜找示例。".search(xb[:5], 4)" 指的是在给定的索引里找出离xb前5行最近的4个向量。
总之,FAISS是一种强大又灵活的向量搜索库,它通过高度优化在CPU和GPU上计算密集型部分来实现在大规模数据上的快速搜索,广泛应用于推荐系统,信息检索,语义搜索,计算机视觉等现实任务中。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。