当前位置:   article > 正文

大模型 搭建知识库 RAG_大模型自建知识库

大模型自建知识库

介绍

LLM具有强大的语言理解和生成能力,当下存在一些局限性,失效受制、专业能力有限和定制成本高。有两种开发范式RAG(实时更新)和Finetune(个性化微调)。
RAG 检索增强生成
在这里插入图片描述
基于langchain搭建rag应用
在这里插入图片描述
构建向量数据库
在这里插入图片描述
搭建知识库助手
在这里插入图片描述
在这里插入图片描述
基于gradio的web部署

基础作业-复现知识库助手搭建过程

进入 conda 环境之后,使用以下命令从本地一个已有的 pytorch 2.0.1 的环境,然后使用以下命令激活环境

bash
/root/share/install_conda_env_internlm_base.sh InternLM
conda activate InternLM
  • 1
  • 2
  • 3

在这里插入图片描述

在环境中安装运行 demo 所需要的依赖

python -m pip install --upgrade pip
pip install modelscope==1.9.5
pip install transformers==4.35.2
pip install streamlit==1.24.0
pip install sentencepiece==0.1.99
pip install accelerate==0.24.1
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述

模型下载

mkdir -p /root/data/model/Shanghai_AI_Laboratory
cp -r /root/share/temp/model_repos/internlm-chat-7b /root/data/model/Shanghai_AI_Laboratory/internlm-chat-7b
  • 1
  • 2

在这里插入图片描述
在已完成 InternLM 的部署基础上,还需要安装LangChain 依赖包

pip install langchain==0.0.292
pip install gradio==4.4.0
pip install chromadb==0.4.15
pip install sentence-transformers==2.2.2
pip install unstructured==0.10.30
pip install markdown==3.3.7
pip install -U huggingface_hub
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述
通过huggingface下载开源词向量模型 Sentence Transformer
在这里插入图片描述
下载 NLTK 相关资源

cd /root
git clone https://gitee.com/yzy0612/nltk_data.git  --branch gh-pages
cd nltk_data
mv packages/*  ./
cd tokenizers
unzip punkt.zip
cd ../taggers
unzip averaged_perceptron_tagger.zip
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

在这里插入图片描述
下载本项目代码

cd /root/data
git clone https://github.com/InternLM/tutorial
  • 1
  • 2

在这里插入图片描述
数据收集

收集数据

cd /root/data
git clone https://gitee.com/open-compass/opencompass.git
git clone https://gitee.com/InternLM/lmdeploy.git
git clone https://gitee.com/InternLM/xtuner.git
git clone https://gitee.com/InternLM/InternLM-XComposer.git
git clone https://gitee.com/InternLM/lagent.git
git clone https://gitee.com/InternLM/InternLM.git
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述
构建知识库
在这里插入图片描述
InternLM 接入 LangChain
在这里插入图片描述

构建检索问答链并运行
在这里插入图片描述
将服务器端口映射到本地端口
在这里插入图片描述
打开网页
在这里插入图片描述

进阶作业

我来制作一个讲故事的机器人
1、收集故事
在这里插入图片描述

2、构建知识向量库
在这里插入图片描述
3、运行web 测试下
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/153106
推荐阅读
相关标签
  

闽ICP备14008679号