当前位置:   article > 正文

向量数据库学习笔记_wav2vector

wav2vector

核心思想

  将内容转换为向量(Vector Embedding)存储在向量数据库中,并根据输入在数据库中搜索(近似最近邻搜索)最相似的那些向量返回
在这里插入图片描述

Vector Embedding

  由 AI 模型(例如大型语言模型 LLM)生成的,它会根据不同的算法生成高维度的向量数据,代表着数据的不同特征,这些特征代表了数据的不同维度。

文本向量可以通过 OpenAI 的 text-embedding-ada-002 模型生成,图像向量可以通过 clip-vit-base-patch32 模型生成,音频向量可以通过 wav2vec2-base-960h 模型生成

近似最近邻搜索

聚类

K-means聚类

  • 缺点:内存太大
    • 解决方法:量化(有损压缩)
      • 缺点:维度灾难
        • 解决方法:PQ乘积量化(将向量分解为多个子向量,对每个子向量独立进行量化)

Faiss 算法

HNSW

构建图或者树

GD7ufK

局部敏感哈希LSH

  LSH 使用一组哈希函数将相似向量映射到“桶”中,从而使相似向量具有相同的哈希值。这样,就可以通过比较哈希值来判断向量之间的相似度。

哈希函数

分区,正为0,负为1(资料的视频里很详细)

相似性测量

  • 欧几里得距离
  • 余弦相似度
  • 点积相似度

过滤

  在实际的业务场景中,往往不需要在整个向量数据库中进行相似性搜索,而是通过部分的业务字段进行过滤再进行查询。所以存储在数据库的向量往往还需要包含元数据,例如用户 ID、文档 ID 等信息。这样就可以在搜索的时候,根据元数据来过滤搜索结果,从而得到最终的结果。
  为此,向量数据库通常维护两个索引:一个是向量索引,另一个是元数据索引。然后,在进行相似性搜索本身之前或之后执行元数据过滤。


参考:

视频

博客文章

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/949900
推荐阅读
相关标签
  

闽ICP备14008679号