当前位置:   article > 正文

基于 InternLM 和 LangChain 搭建知识库_基于 internlm 和 langchain 搭建你的知识库

基于 internlm 和 langchain 搭建你的知识库

1 环境配置

1.1 InternLM 模型部署

在 InternStudio 平台中选择 A100(1/4) 的配置,打开开发机,打开终端开始环境配置,模型下载和运行demo。

进入开发机后,进入conda环境。

1.2 模型下载

在本地的 /root/share/temp/model_repos/internlm-chat-7b 目录下已存储有所需的模型文件参数,可以直接拷贝到个人目录的模型保存地址

  1. mkdir -p /root/data/model/Shanghai_AI_Laboratory
  2. cp -r /root/share/temp/model_repos/internlm-chat-7b /root/data/model/Shanghai_AI_Laboratory/internlm-chat-7b

1.3 LangChain 相关环境配置

在已完成 InternLM 的部署基础上,还需要安装以下依赖包:

  1. pip install langchain==0.0.292
  2. pip install gradio==4.4.0
  3. pip install chromadb==0.4.15
  4. pip install sentence-transformers==2.2.2
  5. pip install unstructured==0.10.30
  6. pip install markdown==3.3.7

同时,使用到开源词向量模型 Sentence Transformer:

首先需要使用 huggingface 官方提供的 huggingface-cli 命令行工具。

pip install -U huggingface_hub

然后在和 /root/data 目录下新建python文件 download_hf.py,填入以下代码

Clone 到本地

  • resume-download:断点续下
  • local-dir:本地存储路径。(linux环境下需要填写绝对路径
    1. import os
    2. # 下载模型
    3. os.system('huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir /root/data/model/sentence-transformer')

    1.4 下载 NLTK 相关资源

  • 在使用开源词向量模型构建开源词向量的时候,需要用到第三方库 nltk 的一些资源。正常情况下,其会自动从互联网上下载,但可能由于网络原因会导致下载中断,此处我们可以从国内仓库镜像地址下载相关资源,保存到服务器上。

    1. cd /root
    2. git clone https://gitee.com/yzy0612/nltk_data.git --branch gh-pages
    3. cd nltk_data
    4. mv packages/* ./
    5. cd tokenizers
    6. unzip punkt.zip
    7. cd ../taggers
    8. unzip averaged_perceptron_tagger.zip

    1.5 下载本项目代码

    1. cd /root/data
    2. git clone https://github.com/InternLM/tutorial

    2 知识库搭建

  • 2.1 数据收集

  • 选择由上海人工智能实验室开源的一系列大模型工具开源仓库作为语料库来源,包括:

  • OpenCompass:面向大模型评测的一站式平台
  • IMDeploy:涵盖了 LLM 任务的全套轻量化、部署和服务解决方案的高效推理工具箱
  • XTuner:轻量级微调大语言模型的工具库
  • InternLM-XComposer:浦语·灵笔,基于书生·浦语大语言模型研发的视觉-语言大模型
  • Lagent:一个轻量级、开源的基于大语言模型的智能体(agent)框架
  • InternLM:一个开源的轻量级训练框架,旨在支持大模型训练而无需大量的依赖
    1. # 进入到数据库盘
    2. cd /root/data
    3. # clone 上述开源仓库
    4. git clone https://gitee.com/open-compass/opencompass.git
    5. git clone https://gitee.com/InternLM/lmdeploy.git
    6. git clone https://gitee.com/InternLM/xtuner.git
    7. git clone https://gitee.com/InternLM/InternLM-XComposer.git
    8. git clone https://gitee.com/InternLM/lagent.git
    9. git clone https://gitee.com/InternLM/InternLM.git

    为语料处理方便,选用上述仓库中所有的 markdown、txt 文件作为示例语料库。

    将上述仓库中所有满足条件的文件路径找出来,我们定义一个函数,该函数将递归指定文件夹路径,返回其中所有满足条件(即后缀名为 .md 或者 .txt 的文件)的文件路径

    1. import os
    2. def get_files(dir_path):
    3. # args:dir_path,目标文件夹路径
    4. file_list = []
    5. for filepath, dirnames, filenames in os.walk(dir_path):
    6. # os.walk 函数将递归遍历指定文件夹
    7. for filename in filenames:
    8. # 通过后缀名判断文件类型是否满足要求
    9. if filename.endswith(".md"):
    10. # 如果满足要求,将其绝对路径加入到结果列表
    11. file_list.append(os.path.join(filepath, filename))
    12. elif filename.endswith(".txt"):
    13. file_list.append(os.path.join(filepath, filename))
    14. return file_list

    2.2 加载数据

  • 得到所有目标文件路径之后,使用 LangChain 提供的 FileLoader 对象来加载目标文件,得到由目标文件解析出的纯文本内容。由于不同类型的文件需要对应不同的 FileLoader,判断目标文件类型,并针对性调用对应类型的 FileLoader,同时,调用 FileLoader 对象的 load 方法来得到加载之后的纯文本对象:

    1. from tqdm import tqdm
    2. from langchain.document_loaders import UnstructuredFileLoader
    3. from langchain.document_loaders import UnstructuredMarkdownLoader
    4. def get_text(dir_path):
    5. # args:dir_path,目标文件夹路径
    6. # 首先调用上文定义的函数得到目标文件路径列表
    7. file_lst = get_files(dir_path)
    8. # docs 存放加载之后的纯文本对象
    9. docs = []
    10. # 遍历所有目标文件
    11. for one_file in tqdm(file_lst):
    12. file_type = one_file.split('.')[-1]
    13. if file_type == 'md':
    14. loader = UnstructuredMarkdownLoader(one_file)
    15. elif file_type == 'txt':
    16. loader = UnstructuredFileLoader(one_file)
    17. else:
    18. # 如果是不符合条件的文件,直接跳过
    19. continue
    20. docs.extend(loader.load())
    21. return docs

    2.3 构建向量数据库

  • 引入到 LangChain 框架中构建向量数据库
    1. from langchain.text_splitter import RecursiveCharacterTextSplitter
    2. text_splitter = RecursiveCharacterTextSplitter(
    3. chunk_size=500, chunk_overlap=150)
    4. split_docs = text_splitter.split_documents(docs)

    选用开源词向量模型 Sentence Transformer 来进行文本向量化。LangChain 提供了直接引入 HuggingFace 开源社区中的模型进行向量化的接口:

    1. from langchain.embeddings.huggingface import HuggingFaceEmbeddings
    2. embeddings = HuggingFaceEmbeddings(model_name="/root/data/model/sentence-transformer")

    选择 Chroma 作为向量数据库,基于上文分块后的文档以及加载的开源向量化模型,将语料加载到指定路径下的向量数据库

    1. from langchain.vectorstores import Chroma
    2. # 定义持久化路径
    3. persist_directory = 'data_base/vector_db/chroma'
    4. # 加载数据库
    5. vectordb = Chroma.from_documents(
    6. documents=split_docs,
    7. embedding=embeddings,
    8. persist_directory=persist_directory # 允许我们将persist_directory目录保存到磁盘上
    9. )
    10. # 将加载的向量数据库持久化到磁盘上
    11. vectordb.persist()

    2.4 整体脚本

  • 将上述代码整合在一起为知识库搭建的脚本:

    1. # 首先导入所需第三方库
    2. from langchain.document_loaders import UnstructuredFileLoader
    3. from langchain.document_loaders import UnstructuredMarkdownLoader
    4. from langchain.text_splitter import RecursiveCharacterTextSplitter
    5. from langchain.vectorstores import Chroma
    6. from langchain.embeddings.huggingface import HuggingFaceEmbeddings
    7. from tqdm import tqdm
    8. import os
    9. # 获取文件路径函数
    10. def get_files(dir_path):
    11. # args:dir_path,目标文件夹路径
    12. file_list = []
    13. for filepath, dirnames, filenames in os.walk(dir_path):
    14. # os.walk 函数将递归遍历指定文件夹
    15. for filename in filenames:
    16. # 通过后缀名判断文件类型是否满足要求
    17. if filename.endswith(".md"):
    18. # 如果满足要求,将其绝对路径加入到结果列表
    19. file_list.append(os.path.join(filepath, filename))
    20. elif filename.endswith(".txt"):
    21. file_list.append(os.path.join(filepath, filename))
    22. return file_list
    23. # 加载文件函数
    24. def get_text(dir_path):
    25. # args:dir_path,目标文件夹路径
    26. # 首先调用上文定义的函数得到目标文件路径列表
    27. file_lst = get_files(dir_path)
    28. # docs 存放加载之后的纯文本对象
    29. docs = []
    30. # 遍历所有目标文件
    31. for one_file in tqdm(file_lst):
    32. file_type = one_file.split('.')[-1]
    33. if file_type == 'md':
    34. loader = UnstructuredMarkdownLoader(one_file)
    35. elif file_type == 'txt':
    36. loader = UnstructuredFileLoader(one_file)
    37. else:
    38. # 如果是不符合条件的文件,直接跳过
    39. continue
    40. docs.extend(loader.load())
    41. return docs
    42. # 目标文件夹
    43. tar_dir = [
    44. "/root/data/InternLM",
    45. "/root/data/InternLM-XComposer",
    46. "/root/data/lagent",
    47. "/root/data/lmdeploy",
    48. "/root/data/opencompass",
    49. "/root/data/xtuner"
    50. ]
    51. # 加载目标文件
    52. docs = []
    53. for dir_path in tar_dir:
    54. docs.extend(get_text(dir_path))
    55. # 对文本进行分块
    56. text_splitter = RecursiveCharacterTextSplitter(
    57. chunk_size=500, chunk_overlap=150)
    58. split_docs = text_splitter.split_documents(docs)
    59. # 加载开源词向量模型
    60. embeddings = HuggingFaceEmbeddings(model_name="/root/data/model/sentence-transformer")
    61. # 构建向量数据库
    62. # 定义持久化路径
    63. persist_directory = 'data_base/vector_db/chroma'
    64. # 加载数据库
    65. vectordb = Chroma.from_documents(
    66. documents=split_docs,
    67. embedding=embeddings,
    68. persist_directory=persist_directory # 允许我们将persist_directory目录保存到磁盘上
    69. )
    70. # 将加载的向量数据库持久化到磁盘上
    71. vectordb.persist()

    3 InternLM 接入 LangChain

  • 为便捷构建 LLM 应用,需要基于本地部署的 InternLM,继承 LangChain 的 LLM 类自定义一个 InternLM LLM 子类,从而实现将 InternLM 接入到 LangChain 框架中。完成 LangChain 的自定义 LLM 子类之后,可以以完全一致的方式调用 LangChain 的接口,而无需考虑底层模型调用的不一致。

    基于本地部署的 InternLM 自定义 LLM 类并不复杂,只需从 LangChain.llms.base.LLM 类继承一个子类,并重写构造函数与 _call 函数即可

    1. from langchain.llms.base import LLM
    2. from typing import Any, List, Optional
    3. from langchain.callbacks.manager import CallbackManagerForLLMRun
    4. from transformers import AutoTokenizer, AutoModelForCausalLM
    5. import torch
    6. class InternLM_LLM(LLM):
    7. # 基于本地 InternLM 自定义 LLM 类
    8. tokenizer : AutoTokenizer = None
    9. model: AutoModelForCausalLM = None
    10. def __init__(self, model_path :str):
    11. # model_path: InternLM 模型路径
    12. # 从本地初始化模型
    13. super().__init__()
    14. print("正在从本地加载模型...")
    15. self.tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
    16. self.model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to(torch.bfloat16).cuda()
    17. self.model = self.model.eval()
    18. print("完成本地模型的加载")
    19. def _call(self, prompt : str, stop: Optional[List[str]] = None,
    20. run_manager: Optional[CallbackManagerForLLMRun] = None,
    21. **kwargs: Any):
    22. # 重写调用函数
    23. system_prompt = """You are an AI assistant whose name is InternLM (书生·浦语).
    24. - InternLM (书生·浦语) is a conversational language model that is developed by Shanghai AI Laboratory (上海人工智能实验室). It is designed to be helpful, honest, and harmless.
    25. - InternLM (书生·浦语) can understand and communicate fluently in the language chosen by the user such as English and 中文.
    26. """
    27. messages = [(system_prompt, '')]
    28. response, history = self.model.chat(self.tokenizer, prompt , history=messages)
    29. return response
    30. @property
    31. def _llm_type(self) -> str:
    32. return "InternLM"

    4 构建检索问答链

  • 4.1 加载向量数据库

  • 将上文构建的向量数据库导入进来,直接通过 Chroma 以及上文定义的词向量模型来加载已构建的数据库:

    1. from langchain.vectorstores import Chroma
    2. from langchain.embeddings.huggingface import HuggingFaceEmbeddings
    3. import os
    4. # 定义 Embeddings
    5. embeddings = HuggingFaceEmbeddings(model_name="/root/data/model/sentence-transformer")
    6. # 向量数据库持久化路径
    7. persist_directory = 'data_base/vector_db/chroma'
    8. # 加载数据库
    9. vectordb = Chroma(
    10. persist_directory=persist_directory,
    11. embedding_function=embeddings
    12. )

    4.2 实例化自定义 LLM 与 Prompt Template

  • 实例化一个基于 InternLM 自定义的 LLM 对象:

    1. from LLM import InternLM_LLM
    2. llm = InternLM_LLM(model_path = "/root/data/model/Shanghai_AI_Laboratory/internlm-chat-7b")
    3. llm.predict("你是谁")

    构建一个 Prompt Template

    1. from langchain.prompts import PromptTemplate
    2. # 我们所构造的 Prompt 模板
    3. template = """使用以下上下文来回答用户的问题。如果你不知道答案,就说你不知道。总是使用中文回答。
    4. 问题: {question}
    5. 可参考的上下文:
    6. ···
    7. {context}
    8. ···
    9. 如果给定的上下文无法让你做出回答,请回答你不知道。
    10. 有用的回答:"""
    11. # 调用 LangChain 的方法来实例化一个 Template 对象,该对象包含了 context 和 question 两个变量,在实际调用时,这两个变量会被检索到的文档片段和用户提问填充
    12. QA_CHAIN_PROMPT = PromptTemplate(input_variables=["context","question"],template=template)

    4.3 构建检索问答链

  • 调用 LangChain 提供的检索问答链构造函数

    1. from langchain.chains import RetrievalQA
    2. qa_chain = RetrievalQA.from_chain_type(llm,retriever=vectordb.as_retriever(),return_source_documents=True,chain_type_kwargs={"prompt":QA_CHAIN_PROMPT})
    3. 对比该检索问答链和纯 LLM 的问答效果:
    4. # 检索问答链回答效果
    5. question = "什么是InternLM"
    6. result = qa_chain({"query": question})
    7. print("检索问答链回答 question 的结果:")
    8. print(result["result"])
    9. # 仅 LLM 回答效果
    10. result_2 = llm(question)
    11. print("大模型回答 question 的结果:")
    12. print(result_2)

    5 部署 Web Demo

  • 基于 Gradio 框架将其部署到 Web 网页

    首先将上文的代码内容封装为一个返回构建的检索问答链对象的函数,并在启动 Gradio 的第一时间调用该函数得到检索问答链对象,后续直接使用该对象进行问答对话,从而避免重复加载模型:

    1. from langchain.vectorstores import Chroma
    2. from langchain.embeddings.huggingface import HuggingFaceEmbeddings
    3. import os
    4. from LLM import InternLM_LLM
    5. from langchain.prompts import PromptTemplate
    6. from langchain.chains import RetrievalQA
    7. def load_chain():
    8. # 加载问答链
    9. # 定义 Embeddings
    10. embeddings = HuggingFaceEmbeddings(model_name="/root/data/model/sentence-transformer")
    11. # 向量数据库持久化路径
    12. persist_directory = 'data_base/vector_db/chroma'
    13. # 加载数据库
    14. vectordb = Chroma(
    15. persist_directory=persist_directory, # 允许我们将persist_directory目录保存到磁盘上
    16. embedding_function=embeddings
    17. )
    18. # 加载自定义 LLM
    19. llm = InternLM_LLM(model_path = "/root/data/model/Shanghai_AI_Laboratory/internlm-chat-7b")
    20. # 定义一个 Prompt Template
    21. template = """使用以下上下文来回答最后的问题。如果你不知道答案,就说你不知道,不要试图编造答
    22. 案。尽量使答案简明扼要。总是在回答的最后说“谢谢你的提问!”。
    23. {context}
    24. 问题: {question}
    25. 有用的回答:"""
    26. QA_CHAIN_PROMPT = PromptTemplate(input_variables=["context","question"],template=template)
    27. # 运行 chain
    28. qa_chain = RetrievalQA.from_chain_type(llm,retriever=vectordb.as_retriever(),return_source_documents=True,chain_type_kwargs={"prompt":QA_CHAIN_PROMPT})
    29. return qa_chain

    定义一个类,该类负责加载并存储检索问答链,并响应 Web 界面里调用检索问答链进行回答的动作:

    1. class Model_center():
    2. """
    3. 存储检索问答链的对象
    4. """
    5. def __init__(self):
    6. # 构造函数,加载检索问答链
    7. self.chain = load_chain()
    8. def qa_chain_self_answer(self, question: str, chat_history: list = []):
    9. """
    10. 调用问答链进行回答
    11. """
    12. if question == None or len(question) < 1:
    13. return "", chat_history
    14. try:
    15. chat_history.append(
    16. (question, self.chain({"query": question})["result"]))
    17. # 将问答结果直接附加到问答历史中,Gradio 会将其展示出来
    18. return "", chat_history
    19. except Exception as e:
    20. return e, chat_history

    按照 Gradio 的框架使用方法,实例化一个 Web 界面并将点击动作绑定到上述类的回答方法即可:

    1. import gradio as gr
    2. # 实例化核心功能对象
    3. model_center = Model_center()
    4. # 创建一个 Web 界面
    5. block = gr.Blocks()
    6. with block as demo:
    7. with gr.Row(equal_height=True):
    8. with gr.Column(scale=15):
    9. # 展示的页面标题
    10. gr.Markdown("""<h1><center>InternLM</center></h1>
    11. <center>书生浦语</center>
    12. """)
    13. with gr.Row():
    14. with gr.Column(scale=4):
    15. # 创建一个聊天机器人对象
    16. chatbot = gr.Chatbot(height=450, show_copy_button=True)
    17. # 创建一个文本框组件,用于输入 prompt。
    18. msg = gr.Textbox(label="Prompt/问题")
    19. with gr.Row():
    20. # 创建提交按钮。
    21. db_wo_his_btn = gr.Button("Chat")
    22. with gr.Row():
    23. # 创建一个清除按钮,用于清除聊天机器人组件的内容。
    24. clear = gr.ClearButton(
    25. components=[chatbot], value="Clear console")
    26. # 设置按钮的点击事件。当点击时,调用上面定义的 qa_chain_self_answer 函数,并传入用户的消息和聊天历史记录,然后更新文本框和聊天机器人组件。
    27. db_wo_his_btn.click(model_center.qa_chain_self_answer, inputs=[
    28. msg, chatbot], outputs=[msg, chatbot])
    29. gr.Markdown("""提醒:<br>
    30. 1. 初始化数据库时间可能较长,请耐心等待。
    31. 2. 使用中如果出现异常,将会在文本输入框进行展示,请不要惊慌。 <br>
    32. """)
    33. gr.close_all()
    34. # 直接启动
    35. demo.launch()

    封装为 run_gradio.py 脚本

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/913495
推荐阅读
相关标签
  

闽ICP备14008679号