小惠珠哦

这个屌丝很懒，什么也没留下！

热门标签

探索大模型应用：构建基于检索的RAG实战指南_知识库构建属于模型训练的什么阶段

作者：小惠珠哦 | 2024-08-13 01:06:53

踩

知识库构建属于模型训练的什么阶段

在AI技术的浪潮中，大模型以其强大的问题回答能力，正逐渐渗透到各行各业，成为推动行业发展的新引擎。然而，大模型并非万能，它在实时性和私有领域知识覆盖上存在局限。为了克服这些限制，本文将带你深入了解如何利用检索增强生成模型（RAG）来扩展大模型的能力，并通过一个实战案例，展示如何构建一个基于RAG的AI知识库。

一、大模型的局限与RAG的机遇

大模型虽然在处理通用问题上表现出色，但在面对实时数据和私有领域知识时，却显得力不从心。为了解决这一问题，RAG技术应运而生。RAG通过构建知识库，动态补充大模型的知识储备，使其能够回答更多问题，从而增强其应用范围和深度。

二、RAG构建流程详解

构建一个基于RAG的AI知识库，可以分为以下五个步骤：

1.文档加载与文本提取

我们将借助pdfminer库中的三个强大工具来处理PDF文档，以便于我们能够更高效地提取和处理所需信息。

（1）pdfminer.six：这是一个多功能库，专门设计来处理PDF文档。它的核心功能包括从PDF文件中提取文本和布局信息，让我们能够以编程的方式自动化处理PDF文档，极大地提高了工作效率。

（2）pdfminer.high_level：作为PDFMiner的高级接口，此工具为我们提供了一套简化的方法来处理PDF文档。它特别适合于执行高级文档处理任务，如文本提取和页面信息获取，使得我们能够快速访问和操作PDF中的文本内容。

（3）pdfminer.layout：这是PDFMiner库的一个组成部分，专注于解析和处理PDF文档的布局信息。它能够识别文本在页面上的确切位置、字体样式等细节，对于需要根据页面布局进行特定处理的场景来说，是一个非常有用的工具。

通过这三个工具的协同工作，我们能够将PDF文档中的数据转换成可供程序进一步分析和利用的格式，为后续的知识库构建和信息检索打下坚实的基础。

在控制台输入：



`#调用包管理工具即可下载：   pip install pdfminer.six`


1
2
3
4
5

把对应的工具导入代码文件中，接下来就可以写主体的代码了：



`from pdfminer.high_level import extract_pages   from pdfminer.layout import LTTextContainer      def``extract_text_from_pdf``(filename, page_numbers=None, min_line_length=1):`    `'''从 PDF 文件中（按指定页码）提取文字'''`    `paragraphs = []       buffer =` `''`    `full_text = ''       # 提取全部文本       for i, page_layout in enumerate(extract_pages(filename)):           # 如果指定了页码范围，跳过范围外的页           if page_numbers is not None and i not in page_numbers:               continue           for element in page_layout:               if isinstance(element, LTTextContainer):                   full_text += element.get_text() +` `'\n'`    `# 按空行分隔，将文本重新组织成段落   lines = full_text.split(``'\n'``)`


1
2
3
4
5

使用pdfminer库中的extract_pages函数从指定的PDF文件中提取页面布局信息。

遍历每个页面的布局信息，仅保留文本容器LTTextContainer类型的元素，并将其文本内容拼接成一个完整的文本字符串full_text。



`for text in lines:           if len(text) >= min_line_length:               buffer += (``' '``+text) if not text.endswith(``'-'``) else text.strip(``'-'``)           elif buffer:               paragraphs.append(buffer)               buffer =` `''`    `if buffer:           paragraphs.append(buffer)       return paragraphs      paragraphs = extract_text_from_pdf(``"llama2.pdf"``, min_line_length=10)      for para in paragraphs[:3]:   print(para+``"\n"``)`


1
2
3
4
5

在处理PDF文档转换为可编辑文本的过程中，我们采取了一系列精细化的步骤来优化文本的质量和结构。以下是我们实施的文本处理流程：

（1）文本分段

我们首先将连续的文本字符串依据空行作为分隔符，划分成独立的段落。这一步骤确保了文本的可读性，使其更贴近自然阅读的习惯。

（2）过滤短行

通过设定一个min_line_length参数，我们对文本进行过滤，忽略掉那些长度不足的行。这一策略有助于去除文档中的噪声，比如页脚或页眉中的简短文字。

（3）连字符处理

对于以连字符结尾的行，我们采取了特殊的合并策略。如果一个断行以连字符结束，我们会将其与下一行相连，以保持文本内容的完整性。

（4）文本重组

在完成上述步骤后，我们得到了一个经过重组的文本段落列表。这个列表中的每个元素都是一个经过清洗和重组的段落，它们构成了我们知识库的基础。

在整个流程中，我们利用了pdfminer库的extract_pages函数来提取PDF文件的页面布局信息。我们遍历了每个页面中的文本容器，并将这些容器中的文本内容串联起来，形成了一个完整的文本字符串。随后，我们对这些文本进行了细致的组织和切割，最终生成了一个整洁、结构化的文本段落列表，为后续的信息检索和知识库构建提供了高质量的数据源。

2. 接口引擎搭建

在构建高效知识检索系统的过程中，我们引入了两个强大的工具：elasticsearch7和NLTK (Natural Language Toolkit)。下面，让我们深入了解它们各自的功能和应用。

（1）elasticsearch7

这是Elasticsearch的官方Python客户端库，它充当着与Elasticsearch服务器交互的桥梁。在Python应用中，我们通过它与Elasticsearch集群进行通信，执行包括搜索、索引创建和更新在内的各种操作。Elasticsearch作为一个分布式搜索引擎，以其在全文搜索和日志分析等领域的广泛应用而闻名。

（2）NLTK (Natural Language Toolkit)

这是自然语言处理（NLP）领域的一个综合性库，它提供了一系列工具和资源，专门用于处理和分析人类语言数据。NLTK在文本处理、分词、词性标注、语法分析等NLP任务中发挥着重要作用。此外，它还包含了大量的语料库和算法，极大地简化了使用Python进行NLP开发的复杂性。

装备了这两个工具，我们能够更加方便地从知识库中检索内容，并精准地提取出所需的信息。为了将这些工具集成到我们的工作流程中，我们通过包管理工具进行了安装和加载。

通过这样的技术栈配置，我们不仅能够构建一个强大的知识检索系统，还能够在自然语言处理方面进行深入的分析和应用，从而为我们的AI知识库提供坚实的技术支撑。



`pip install elasticsearch   pip install nltk`


1
2
3
4
5

接下来的代码主要涉及与Elasticsearch的交互，包括建立索引、将文本数据灌入索引以及执行搜索操作。以下是具体的步骤：



 `#文本处理与关键词提取   from elasticsearch7 import Elasticsearch, helpers   from nltk.stem import PorterStemmer   from nltk.tokenize import word_tokenize   from nltk.corpus import stopwords   import nltk   import re   nltk.download(``'stopwords'``)   import warnings   warnings.simplefilter(``"ignore"``)  # 屏蔽 ES 的一些Warnings   nltk.download(``'punkt'``)  # 英文切词、词根、切句等方法   nltk.download(``'stopwords'``)  # 英文停用词库   def` `to_keywords``(input_string):`    `'''（英文）文本只保留关键字'''`    `# 使用正则表达式替换所有非字母数字的字符为空格       no_symbols = re.sub(r``'[^a-zA-Z0-9\s]'``,` `' '``, input_string)       word_tokens = word_tokenize(no_symbols)       # 加载停用词表       stop_words = set(stopwords.words(``'english'``))       ps = PorterStemmer()       # 去停用词，取词根       filtered_sentence = [ps.stem(w)       for w in word_tokens if not w.lower() in stop_words]            return` `' '``.join(filtered_sentence)`


1
2
3
4
5

在文本处理的过程中，我们巧妙地利用了NLTK库的强大功能。我们的工作流程包括几个关键步骤：首先，通过PorterStemmer进行词干提取，这一过程剥离了单词的前缀和后缀，将它们还原到最基本的形式；接着，我们采用word_tokenize进行分词处理，将连续的文本分解成单独的词汇单元；最后，通过stopwords去除常见的停用词，这些词汇在语言中普遍出现，但对于精确搜索和分析往往贡献有限。

此外，我们还利用了Python标准库中的re模块来处理正则表达式，这使得我们能够从文本中精准地提取出关键词，为后续的语义分析和信息检索打下坚实基础。



`# 创建索引   es.indices.create(index=index_name)      # 灌库指令   actions = [       {`        `"_index"``: index_name,`        `"_source"``: {`            `"keywords"``: to_keywords(para),`            `"text"``: para           }       }       for para in paragraphs   ]      #文本灌库   helpers.bulk(es, actions)`


1
2
3
4
5

在上面的代码中，我们使用列表推导式构建actions列表，其中每个元素是一个字典，包含了索引名称、关键词和原始文本。每个段落的关键词是通过前面定义的to_keywords函数处理得到的。最后使用helpers.bulk函数将文本数据批量灌入Elasticsearch索引。

接下来我们需要定义一个search函数，用于执行基于关键词的搜索操作。使用search函数执行搜索，指定查询字符串和返回结果的数量。将搜索结果中的文本内容提取出来，并打印输出。接下来我们看一下如何实现定义搜索函数：



`def` `search``(query_string, top_n=3):       # ES 的查询语言       search_query = {`        `"match"``: {`            `"keywords"``: to_keywords(query_string)           }       }       res = es.search(index=index_name, query=search_query, size=top_n)       return [hit[``"_source"``][``"text"``] for hit in res[``"hits"``][``"hits"``]]      results = search(``"how many parameters does llama 2 have?"``, 2)   for r in results:   print(r+``"\n"``)`


1
2
3
4
5

完成接口引擎开发之后，接下来我们就要对接口封装。

3. 接口封装与OpenAI GPT-3.5-turbo模型交互

这一部分涉及到与OpenAI GPT-3.5-turbo模型的交互，以及封装与OpenAI的通信过程：



`from openai import OpenAI   import os   # 加载环境变量   from dotenv import load_dotenv, find_dotenv   _ = load_dotenv(find_dotenv())  # 读取本地 .env 文件，里面定义了 OPENAI_API_KEY      client = OpenAI()      def` `get_completion``(prompt, model=``"gpt-3.5-turbo"``):`    `'''封装 openai 接口'''`    `messages = [{``"role"``:` `"user"``,` `"content"``: prompt}]       response = client.chat.completions.create(           model=model,           messages=messages,           temperature=0,  # 模型输出的随机性，0 表示随机性最小       )   return response.choices[0].message.content`


1
2
3
4
5

以上代码，使用python-dotenv库加载环境变量，其中包含了OpenAI API的密钥。使用openai库中的OpenAI类创建一个OpenAI API的客户端。定义get_completion函数，该函数接收一个提示（prompt）并调用OpenAI API的聊天补全接口，获取模型生成的回复。最后使用get_completion函数调用OpenAI GPT-3.5-turbo模型，传入之前构建的中文提示（这里要自己构建一个Prompt模板）。设置temperature参数可以自己设置，建议设为0，以最小化模型生成输出的随机性。

接下来是大模型的必知必会应用Prompt，Prompt用好你会发现让你在开发上和工作期间让你提效翻倍，在RAG应用过程中Prompt应用也是必不可少的，接下来我们看看Prompt模版应用。

4. Prompt模板构建

构建一个符合中文对话语境的Prompt模板，用于生成问题并提供已知信息。



`def` `build_prompt``(prompt_template, **kwargs):`    `'''将 Prompt 模板赋值'''`    `prompt = prompt_template       for k, v in kwargs.items():           if isinstance(v, str):               val = v           elif isinstance(v, list) and all(isinstance(elem, str) for elem in v):               val =` `'\n'``.join(v)           else:               val = str(v)           prompt = prompt.replace(f``"__{k.upper()}__"``, val)       return prompt      prompt_template =` `"""`


1
2
3
4
5

具体来说，定义一个名为 build_prompt 的函数，该函数接收一个 Prompt 模板和一组关键字参数。使用关键字参数填充模板中的占位符，占位符以 __ 开头，后跟大写字母标识符。这些占位符包括 __INFO__ 和 __QUERY__。他们的名称无所谓，主要是方便我们之后填充内容即可。

5. RAG正式运行

在下面的代码中，我们定义了一个用户查询的字符串，使用之前定义的搜索函数 search 对用户查询进行基于关键词的搜索，返回搜索结果。使用build_prompt 函数，将搜索结果和用户查询组装成一个用于 OpenAI 模型的输入 Prompt。



`user_query =` `"how many parameters does llama 2 have?"``      # 1. 检索   search_results = search(user_query, 2)      # 2. 构建 Prompt   prompt = build_prompt(prompt_template, info=search_results, query=user_query)   print(``"===Prompt==="``)   print(prompt)      # 3. 调用 LLM   response = get_completion(prompt)      print(``"===回复==="``)   print(response)`


1
2
3
4
5

到这里，我们就完成了整个流程的开发，接下来我们就对每个环节进行一个简短的提炼总结，一起来梳理一下整个实现过程。

三、实战案例分析

本文中，我们将通过一个实战案例，展示如何应用上述步骤构建一个基于RAG的AI知识库。从文档的加载与切割，到接口引擎的搭建，再到Prompt模板的构建和RAG的正式运行，每一步都精心设计，以确保最终的AI知识库能够精准地回应用户的查询。

四、总结与展望

通过以上五个步骤，我们成功构建了一个简单的AI知识库。在实践中，我们可以结合自己的业务需求，构建不同领域的AI知识库，使自己的AI更加强大。这不仅能够实现技术提升，还能拓展新的技术领域，与实际业务相结合，进行不断的迭代和升级。

五、结语

大模型的时代已经到来，而RAG技术的应用，为我们打开了一扇通往更深层次AI应用的大门。希望通过本文的分享，能够激发你对大模型和RAG技术的兴趣，并在你的技术道路上提供帮助和启发。欢迎在评论区交流讨论，共同探索AI技术的无限可能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/972420