赞
踩
上周老板让我部署一个公司用的知识库问答系统, 找了套源码部署,下面是一些经验, 以飨读者, 源码已经上传 源码下载 , 下面的是一些研究笔记和部署教程
大模型知识库是一个包含大量语义信息的知识库。它通常使用大规模的自然语言处理和机器学习技术来构建,可以存储大量的文本、图像、语音等数据,并将其组织为结构化的知识。
大模型知识库通常具有以下特点:
大规模数据:它可以包含数百万、甚至数十亿条语义信息,涵盖各种领域和主题。
多媒体支持:除了文本外,它还可以处理图像、视频、音频等多种类型的数据。
语义链接:它能够通过关联相关的实体、概念和关系来构建知识之间的链接,从而形成知识图谱。
语义理解:它可以基于自然语言处理和机器学习技术,对输入的自然语言进行理解和解析,从而提供相应的知识答案。
一般说知识库都是涉及到langchain, 大模型, 向量化,
一个开源的框架, 大模型开发必备, 封装了RAG和Agent的一些流程
大模型RAG,即检索增强生成(Retrieval-Augmented Generation),是一种结合了信息检索和文本生成的技术。它通过从数据源检索相关信息,并将其提供给大型语言模型(LLMs),以生成更准确、更符合上下文的文本回复。
RAG的核心在于“检索+生成”。首先,利用向量数据库等技术高效地存储和检索知识,召回目标知识。然后,结合大型语言模型和Prompt工程技术,合理地利用召回的知识,生成目标答案。
数据准备阶段:涉及数据提取、文本分割、向量化(embedding)和数据入库。
应用阶段:根据用户提问,通过检索方法召回相关知识,并将其融入Prompt;然后大型语言模型参考提问和相关知识,生成答案。
RAG技术的优势在于能够解决大型语言模型存在的一些局限性,如知识的实时性、专业性和数据安全性问题。它使得大型语言模型能够利用私有或专有数据源的信息,提高搜索体验的相关性,改善输出,而无需重新训练模型。
RAG技术广泛应用于文本生成、对话系统、问答系统等领域,对于生成式AI系统使用外部信息源生成更准确且更符合语境的回答具有极大价值
上周找到的这套代码就是基于langchian,用rag机制开发的知识库问答系统, 大致的部署教程如下
项目需要Python>=3.8.1, 默认已安装torch
具体如果有各种模型报错,再进行针对处理就行, 目前我的环境是conda的python3.10版本, 没有什么问题
启动后, 把文本语料塞进去进行向量化就可以了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。