当前位置:   article > 正文

基于大模型和向量数据库的 RAG 示例_rag 向量

rag 向量

1        RAG 介绍

RAG 是一种先进的自然语言处理方法,它结合了信息检索和文本生成技术,用于提高问答系统、聊天机器人等应用的性能。

2        RAG 的工作流程

  1. 文档加载(Document Loading)

    • 从各种来源加载大量文档数据。
    • 这些文档将作为知识库,用于后续的信息检索。
  2. 文档分割(Document Splitting)

    • 将加载的文档分割成更小的段落或部分。
    • 这有助于提高检索的准确性和效率。
  3. 嵌入向量生成(Embedding Generation)

    • 对每个文档或文档的部分生成嵌入向量。
    • 这些嵌入向量捕捉文档的语义信息,方便后续的相似度比较。
  4. 写入向量数据库(Writing to Vector Database)

    • 将生成的嵌入向量存储在一个向量数据库中。
    • 数据库支持高效的相似度搜索操作。
  5. 查询生成(Query Generation)

    • 用户提出一个问题或输入一个提示。
    • RAG 模型根据输入生成一个或多个相关的查询。
  6. 文档检索(Document Retrieval)

    • 使用生成的查询在向量数据库中检索相关文档。
    • 选择与查询最相关的文档作为信息源。
  7. 上下文融合(Context Integration)

    • 将检索到的文档内容与原始问题或提示融合,构成扩展的上下文。
  8. 答案生成(Answer Generation)

    • 基于融合后的上下文,RAG 生成模型产生最终的回答或文本。
    • 这一步骤旨在综合原始输入和检索到的信息。

3        准备环境

3.1        向量数据库环境

已经通过百度向量数据库测试申请的才能访问创建,地址:VectorDB 向量数据库官网页-百度智能云

1        创建百度向量数据库实例,注意需要地域,可用区需要和 BCC 保持在同一个 VPC 内。 地址:百度智能云-向量数据库

image1.png

2        创建成功后,通过实例详情页查看访问的地址信息和账号信息,用于访问操作向量数据库。如例子截图,访问信息如下:

  1. # 访问地址格式:http://${IP}:${PORT}
  2. 访问地址:http://192.168.20.4:5287
  3. 账号:root
  4. 密钥:xxxx

image2.png

image3.png

3.2         开通千帆 Embedding 模型

千帆模型开通付费之后才能使用,开通不会产生费用,且有代金券赠送

1        开通千帆 Embedding 模型的收费,地址: 百度智能云千帆大模型平台

image4.png

2        右上角个人中心的安全认证里面提取用于鉴权调用 Embedding 模型的 Access Key 和 Secret Key

image5.png

3.3        客户端环境

3.3.1        数据准备和写入

本例子使用的是 bcc 计算型 c5 2c4g 实例基于 Centos 系统作为例子,但不仅限于 bcc,只要是同 vpc 内的服务器产品都可以。已经有 BCC 客户端的用户忽略步骤 1。

1        创建 BCC 客户端。 地址:百度智能云

image6.png

2        登录创建的实例进行环境准备,部署安装 python 环境和搭建知识库所必须的依赖包,

  1. # 安装 python 3.9
  2. yum install -y python39
  3. # langchain 依赖包,用于把文本数据转化为向量数据。
  4. pip3.9 install langchain
  5. # pymochow 依赖包,用于访问和操作百度向量数据库。
  6. pip3.9 install pymochow
  7. # qianfan 依赖包,用于访问千帆大模型。
  8. pip3.9 install qianfan
  9. # pdfplumber 依赖包,加载除了 pdf 文档。
  10. pip3.9 install pdfplumber
  11. # 创建项目目录
  12. mkdir -p knowledge/example_data && cd knowledge

3        上传一个 PDF 文件到 knowledge/example_data 目录下

4        创建访问的配置文件

  1. # config.py
  2. import os
  3. from pymochow.auth.bce_credentials import BceCredentials
  4. # 定义配置信息
  5. account = 'root'
  6. api_key = '修改为你的密钥'
  7. endpoint = '修改为之前记录的访问地址,如 http://192.168.20.4:5287'
  8. # 初始化BceCredentials对象
  9. credentials = BceCredentials(account, api_key)
  10. # 设置千帆AI平台的安全认证信息(AK/SK),通过环境变量
  11. # 注意替换以下参数为您的Access Key和Secret Key
  12. os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
  13. os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

5        创建 document 数据库

  1. import pymochow
  2. from pymochow.configuration import Configuration
  3. import config # 导入配置文件
  4. config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
  5. client = pymochow.MochowClient(config_obj)
  6. try:
  7. db = client.create_database("document")
  8. except Exception as e: # 捕获所有类型的异常
  9. print(f"Error: {e}") # 打印异常信息
  10. db_list = client.list_databases()
  11. for db_name in db_list:
  12. print(db_name.database_name)
  13. client.close()

6        创建 chunks 数据表

  1. import time
  2. import pymochow # 导入pymochow库,用于操作数据库
  3. from pymochow.configuration import Configuration # 用于配置客户端
  4. import config # 导入配置文件,包含身份验证和终端信息
  5. # 导入pymochow模型相关的类和枚举类型
  6. from pymochow.model.schema import Schema, Field, VectorIndex, SecondaryIndex, HNSWParams
  7. from pymochow.model.enum import FieldType, IndexType, MetricType, TableState
  8. from pymochow.model.table import Partition
  9. # 使用配置文件中的信息初始化客户端
  10. config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
  11. client = pymochow.MochowClient(config_obj)
  12. # 选择或创建数据库
  13. db = client.database("document")
  14. # 定义数据表的字段
  15. fields = [
  16. Field("id", FieldType.UINT64, primary_key=True, partition_key=True, auto_increment=False, not_null=True),
  17. Field("source", FieldType.STRING),
  18. Field("author", FieldType.STRING, not_null=True),
  19. Field("vector", FieldType.FLOAT_VECTOR, dimension=384)
  20. ]
  21. # 定义数据表的索引
  22. indexes = [
  23. VectorIndex(index_name="vector_idx", field="vector", index_type=IndexType.HNSW, metric_type=MetricType.L2, params=HNSWParams(m=32, efconstruction=200)),
  24. SecondaryIndex(index_name="author_idx", field="author")
  25. ]
  26. # 尝试创建数据表,捕获并打印可能出现的异常
  27. try:
  28. table = db.create_table(table_name="chunks", replication=3, partition=Partition(partition_num=1), schema=Schema(fields=fields, indexes=indexes))
  29. except Exception as e: # 捕获所有类型的异常
  30. print(f"Error: {e}") # 打印异常信息
  31. # 轮询数据表状态,直到表状态为NORMAL,表示表已准备好
  32. while True:
  33. time.sleep(2) # 每次检查前暂停2秒,减少对服务器的压力
  34. table = db.describe_table("chunks")
  35. if table.state == TableState.NORMAL: # 表状态为NORMAL,跳出循环
  36. break
  37. time.sleep(10) # 如果状态不是NORMAL,等待更长时间再次检查
  38. # 打印数据表的详细信息
  39. print("table: {}".format(table.to_dict()))
  40. client.close() # 关闭客户端连接

7        从 PDF 文档中加载数据、将文档内容分割为更小的文本块以及利用千帆 AI 平台的接口来对文本进行向量化表示,并且写到 chunks 表,本例子会用小的文档作为例子,用户可以根据实际情况加载。

  1. # 导入必要的库
  2. from langchain_community.document_loaders import PDFPlumberLoader # 用于加载PDF文档
  3. from langchain.text_splitter import RecursiveCharacterTextSplitter # 用于文本分割
  4. import os # 用于操作系统功能,如设置环境变量
  5. import qianfan # 千帆AI平台SDK
  6. import time # 用于暂停执行,避免请求频率过高
  7. import pymochow
  8. import config # 导入配置文件
  9. from pymochow.model.table import Row # 用于写入向量数据
  10. from pymochow.configuration import Configuration
  11. # 加载PDF文档
  12. loader = PDFPlumberLoader("./example_data/ai-paper.pdf") # 指定PDF文件路径
  13. documents = loader.load() # 加载文档
  14. print(documents[0]) # 打印加载的第一个文档内容
  15. # 设置文本分割器,指定分割的参数
  16. # chunk_size定义了每个分割块的字符数,chunk_overlap定义了块之间的重叠字符数
  17. # separators列表定义了用于分割的分隔符
  18. text_splitter = RecursiveCharacterTextSplitter(
  19. chunk_size=384,
  20. chunk_overlap=0,
  21. separators=["\n\n", "\n", " ", "", "。", ","]
  22. )
  23. all_splits = text_splitter.split_documents(documents) # 对文档进行分割
  24. print(all_splits[0]) # 打印分割后的第一个块内容
  25. emb = qianfan.Embedding() # 初始化嵌入模型对象
  26. embeddings = [] # 用于存储每个文本块的嵌入向量
  27. for chunk in all_splits: # 遍历所有分割的文本块
  28. # 获取文本块的嵌入向量,使用默认模型Embedding-V1
  29. resp = emb.do(texts=[chunk.page_content])
  30. embeddings.append(resp['data'][0]['embedding']) # 将嵌入向量添加到列表中
  31. time.sleep(1) # 暂停1秒,避免请求过于频繁
  32. print(embeddings[0]) # 打印第一个文本块的嵌入向量
  33. # 逐行写入向量化数据
  34. rows = []
  35. for index, chunk in enumerate(all_splits):
  36. row = Row(
  37. id=index,
  38. source=chunk.metadata["source"],
  39. author=chunk.metadata["Author"],
  40. vector=embeddings[index]
  41. )
  42. rows.append(row)
  43. # 打印第一个Row对象转换成的字典格式,以验证数据结构
  44. print(rows[0].to_dict())
  45. # 读取数据库配置文件,并且初始化连接
  46. config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
  47. client = pymochow.MochowClient(config_obj)
  48. # 选择或创建数据库
  49. db = client.database("document")
  50. try:
  51. table = db.describe_table("chunks")
  52. table.upsert(rows=rows) # 批量写入向量数据,一次最多支持写入1000
  53. table.rebuild_index("vector_idx") # 创建向量索引,必要步骤
  54. except Exception as e: # 捕获所有类型的异常
  55. print(f"Error: {e}") # 打印异常信息
  56. client.close()

当打印到如下的数据证明你写入成功了。

image7.png

3.3.2        文档检索

1        基于标量的检索

  1. import pymochow
  2. from pymochow.configuration import Configuration
  3. import config # 导入配置文件
  4. config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
  5. client = pymochow.MochowClient(config_obj)
  6. # 选择或创建数据库
  7. db = client.database("document")
  8. try:
  9. table = db.describe_table("chunks")
  10. primary_key = {'id': 0}
  11. projections = ["id", "source", "author"]
  12. res = table.query(
  13. primary_key=primary_key,
  14. projections=projections,
  15. retrieve_vector=True
  16. )
  17. except Exception as e: # 捕获所有类型的异常
  18. print(f"Error: {e}") # 打印异常信息
  19. print(res)
  20. client.close()

结果显示如下:

image8.png

2        基于向量的检索

  1. import os
  2. import config
  3. import pymochow
  4. import qianfan
  5. from pymochow.configuration import Configuration
  6. from pymochow.model.table import AnnSearch, HNSWSearchParams
  7. # 初始化千帆AI平台的嵌入模型对象
  8. emb = qianfan.Embedding()
  9. # 定义待查询的问题文本
  10. question = "讲解下大模型的发展趋势"
  11. # 获取问题文本的嵌入向量
  12. resp = emb.do(texts=[question])
  13. question_embedding = resp['data'][0]['embedding']
  14. # 使用配置信息初始化向量数据库客户端
  15. config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
  16. client = pymochow.MochowClient(config_obj)
  17. # 选择数据库
  18. db = client.database("document")
  19. try:
  20. # 获取指定表的描述信息
  21. table = db.describe_table("chunks")
  22. # 构建近似最近邻搜索对象
  23. anns = AnnSearch(
  24. vector_field="vector", # 指定用于搜索的向量字段名
  25. vector_floats=question_embedding, # 提供查询向量
  26. params=HNSWSearchParams(ef=200, limit=1) # 设置HNSW算法参数和返回结果的限制数量
  27. )
  28. # 执行搜索操作
  29. res = table.search(anns=anns)
  30. # 打印搜索结果
  31. print(res)
  32. except Exception as e: # 捕获并打印所有异常信息
  33. print(f"Error: {e}")
  34. # 关闭客户端连接
  35. client.close()

3        基于标量和向量的混合检索

  1. import os
  2. import config
  3. import pymochow
  4. import qianfan
  5. from pymochow.configuration import Configuration
  6. from pymochow.model.table import AnnSearch, HNSWSearchParams
  7. # 初始化千帆AI平台的嵌入模型对象
  8. emb = qianfan.Embedding()
  9. # 定义待查询的问题文本
  10. question = "讲解下大模型的发展趋势"
  11. # 获取问题文本的嵌入向量
  12. resp = emb.do(texts=[question])
  13. question_embedding = resp['data'][0]['embedding']
  14. # 使用配置信息初始化向量数据库客户端
  15. config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
  16. client = pymochow.MochowClient(config_obj)
  17. # 选择数据库
  18. db = client.database("document")
  19. try:
  20. # 获取指定表的描述信息
  21. table = db.describe_table("chunks")
  22. # 构建近似最近邻搜索对象
  23. anns = AnnSearch(
  24. vector_field="vector", # 指定用于搜索的向量字段名
  25. vector_floats=question_embedding, # 提供查询向量
  26. params=HNSWSearchParams(ef=200, limit=1), # 设置HNSW算法参数和返回结果的限制数量
  27. filter="author='CNKI'" # 提供标量的过来条件
  28. )
  29. # 执行搜索操作
  30. res = table.search(anns=anns)
  31. # 打印搜索结果
  32. print(res)
  33. except Exception as e: # 捕获并打印所有异常信息
  34. print(f"Error: {e}")
  35. # 关闭客户端连接
  36. client.close()

当然后续还需要上下文融合和答案生成,可以基于百度文心大模型的能力实现,本文篇幅有限就不详细展开了。

原文链接:千帆+Langchain+VectorDB 建立简单的 RAG 示例 - 向量数据库 - 设计架构

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/499314
推荐阅读
相关标签
  

闽ICP备14008679号