赞
踩
在上一篇博客 【AI 大模型】RAG 检索增强生成 ① ( 大模型的相关问题描述 - 幻觉、时效性、数据安全 | RAG 检索增强生成 | RAG 关键组件 | LLM + RAG 的运行流程 ) 中 , 对 大模型的缺陷进行了分析 , 有 幻觉、时效性、数据安全 三大缺陷 , 这是大模型 理论设计 上的问题 , 大模型本身无法解决 , 需要引入 RAG 检索增强生成 解决上述问题 ;
本篇博客中 , 展示 如何 在 WIndows 系统中 实现 RAG ;
" 关键字检索 " 和 " 向量检索 " 是 信息检索 和 数据检索 领域 中的 检索方法 , 二者各有优劣 , 分别适用于不同的 场景 和 需求 ;
关键字检索 又称为 关键词检索 , 是 基于 关键字 的 检索方式 , 用户输入 " 查询词 " 与 文档 中的 关键字 进行匹配 , 可以找到相关文档 ;
关键字检索特点 :
向量检索 基于 向量空间模型 进行检索 , 文档 和 查询词 都被表示为向量 , 检索系统通过 计算 向量之间 的 相似度 来找到相关文档 ;
向量检索特点 :
向量 是一个 数学 和 计算机科学 中的基本概念 , 用于 表示具有大小和方向的量 ;
为了方便理解 , 先理解 二维空间向量 和 三维空间向量 , 再 拓展到 n 维空间向量 ;
在 二维空间 中 , 向量通常表示为一个 有序的数对 v = [ v 1 , v 2 ] v = [v_1 , v_2] v=[v1,v2] , 其中 v 1 v_1 v1 和 v 2 v_2 v2 分别是 x 轴 和 y 轴 的分量 , 该向量可以理解为 从 原点 (0, 0) 到 ( v 1 , v 2 v_1 , v_2 v1,v2) 点的线段 ;
在 三维空间 中 , 向量通常表示为一个 有序的数对 v = [ v 1 , v 2 , v 3 ] v = [v_1 , v_2, v_3] v=[v1,v2,v3] , 其中 v 1 v_1 v1 , v 2 v_2 v2 和 v 3 v_3 v3 分别是 x 轴 , y 轴 和 y 轴 的分量 , 该向量可以理解为 从 原点 (0, 0, 0) 到 ( v 1 , v 2 , v 3 v_1 , v_2, v_3 v1,v2,v3) 点的线段 ;
三维以上的空间画不出来 , 但是仍然存在 , 比如 四维空间 , 五维空间 , 一千维空间 ;
在 n 维空间中 , 向量通常表示为一个有序的数对 v = [ v 1 , v 2 , v 3 , ⋯ , v n ] v = [v_1 , v_2, v_3, \cdots , v_n] v=[v1,v2,v3,⋯,vn] , 其中 v 1 v_1 v1 , v 2 v_2 v2 到 v n v_n vn 分别是 n 个轴 的分量 , 该向量可以理解为 原点 到 ( v 1 , v 2 , v 3 , ⋯ , v n v_1 , v_2, v_3, \cdots , v_n v1,v2,v3,⋯,vn) 点的 线段 ;
向量 的 本质 就是 一组数字 ;
为了更好的理解 " 向量 " 这个概念 , 这里举一个 二维空间 的向量计算示例 ;
A 点的坐标 ( x 1 , y 1 ) (x_1 , y_1) (x1,y1) , B 点的坐标 ( x 2 , y 2 ) (x_2 , y_2) (x2,y2) ,
从 A 点 到 B 点 的向量 :
向量 A B = [ x 2 − x 1 , y 2 − y 1 ] 向量 AB = [x_2 - x_1 , y_2 - y_1] 向量AB=[x2−x1,y2−y1]
从 B 点 到 A 点 的向量 :
向量 B A = [ x 1 − x 2 , y 1 − y 2 ] 向量 BA = [x_1 - x_2 , y_1 - y_2] 向量BA=[x1−x2,y1−y2]
文本向量 一般是 通过 Word2Vec / GloVe 词嵌入模型 表示 , 嵌入 英文为 Embedding , 因此 文本向量 又称为 " Embeddings " ;
文本向量 是 将 每个汉子 或 单词 映射到一个低维的连续向量空间中 , 捕捉词之间的语义关系 , 每个 汉子 或 单词 转为一组浮点数 , 每个浮点数都有一个下标 i , 有多少个维度 , 就有多少个浮点数 ;
在 n 维向量空间中 , 每个 文本向量 之间 , 都可以计算出一个距离 , 这个距离的远近就是 语义的相似度 ;
文本向量 常见方法 :
文本向量表示方式 : 每个 汉字 或 单词 都有一个 固定维度 的向量 ,
[0.25, -0.58, 0.37, ...]
, 有多少维度 , 就有几个数字 ;下图中 , 展示了将 一段文字 映射到 n 维 的向量空间中 ,
通过计算 在 n 维向量空间 中 每段文字的距离 , 可以计算出 下面 五句话 在 语义上的相似度 ;
下面的 五句话中 , 前三句 在 n 维向量空间 中的距离比较近 , 其语义相似 , 后两句 的距离比较近 , 前后二者间的距离较远 ;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。