当前位置:   article > 正文

《AI 大模型全栈工程师》学习笔记1 - 大模型应用的技术架构

大模型全栈工程师

目录

1 前言

1.1 课程链接

1.2 名词解释&前置知识

2 大模型应用的技术架构

2.1 Prompt-Response架构

2.2 Agent + Function Calling 架构

2.3 RAG(Retrieval-Augmented Generation)架构

2.4 Fine-tuning架构


1 前言

本文为知乎知学堂课程《AI 大模型全栈工程师》的学习笔记,文章中涉及的一些名词解释,数据表格,流程图、框图等大都来自于课程课件。

课程公开课链接是可以打开的,未购买培训课程时正式课程链接是无法打开的。

本文作者不提供视频、课件等与培训课程一切相关的资料,请知悉!!!

本文是作者个人的理解,不保证正确性,有任何疑问欢迎留言交流讨论。

1.1 课程链接

大模型应用开发技术体系串讲 - 程序员的AI大模型进阶之旅1226期 (zhihu.com)

大模型应用开发基础 - AI 大模型全栈工程师培养计划(第五期) (zhihu.com)

1.2 名词解释&前置知识

  • 大模型:全称「大语言模型」,英文「Large Language Model」,缩写「LLM」
  • 区分开 对话产品  VS 大模型
国家对话产品大模型链接
美国OpenAI ChatGPTGPT-3.5、GPT-4https://chat.openai.com/
美国Microsoft CopilotGPT-4 和未知Microsoft Copilot: 你的日常 AI 助手
美国Google BardGeminihttps://bard.google.com/
中国百度文心一言文心 4.0文心一言
中国讯飞星火星火 3.5讯飞星火认知大模型-AI大语言模型-星火大模型-科大讯飞
中国智谱清言GLM-4智谱清言
中国月之暗面 Kimi ChatMoonshotKimi Chat - 帮你看更大的世界
中国MiniMax 星野abab6星野_星野ai_星野app_星野官网_AI聊天_智能ai
  • 大模型没有联网能力,它的联网能力是通过应用程序获得的

  • 使用对话产品时的重要原则:把AI当人看,把AI当人看,把AI当人看

  • 大模型原理的通俗解释

  • 训练:大模型阅读了人类曾说过的所有的话「机器学习
  • 参数(权重):把一串 token 后面跟着的不同 token 的概率存入「神经网络」。保存的数据就是「参数」,也叫「权重
  • 生产(推理):当给它若干 token,大模型就能算出概率最高的下一个 token 是什么。
  • 迭代输出:用生成的 token,再加上上文,就能继续生成下一个 token。以此类推,生成更多文字

2 大模型应用的技术架构

2.1 Prompt-Response架构

        这种架构是最容易理解的。当我们使用文心一言或者智谱清言等对话类产品时,在对话框中输入一串文字,它作出回应。

        这里提一点Prompt 的表达形式,在使用AI时,我们一定要把AI当人看。既然AI是人,那就要说人能听懂的话。提问时要给出具体明确的指示,明确AI的角色,可参照智谱清言“灵感大全”中的示例:

2.2 Agent + Function Calling 架构

个人理解:

  • 当通过Prompt给大模型发出负责指令时,大模型当前无法回答时,会触发其Agent能力,对应用程序反向提问
  • 应用程序通过调用API获取相关信息,并通过Prompt再次输入给大模型
  • 大模型依据输出给出Response

举一个简单的例子:

我想要知道杭州市民中心停车费时,但是大模型训练时并不包括关于杭州市民中心停车费相关的数据,此时触发其Agent能力。通过Function Calling 向应用程序索要相关信息,应用程序调用api或者上网查询,将得到的信息再次以Prompt形式给到大模型,大模型处理后作出反馈。

下面截图是通过智谱清言测试的过程:

2.3 RAG(Retrieval-Augmented Generation)架构

  • Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫向量
  • 向量数据库:把向量存起来,方便查找
  • 向量搜索:根据输入向量,找到最相似的向量

大模型中的RAG(检索增强生成)技术,是近年来在自然语言处理领域迅速发展的一项技术。它主要解决的是大语言模型(Large Language Model, LLM)在实际应用中遇到的一些问题。
首先,大语言模型虽然在处理语言任务时表现出色,但它们存在着一些固有的局限性。例如,它们可能产生“幻觉”,即在回答问题时提供不准确或误导性的信息。这是因为模型的训练数据是有限的,它们可能无法涵盖所有的事实和信息。此外,模型的知识是固定的,无法实时更新,这使得它们在处理最新的信息时可能产生误差。
RAG技术的核心思想是通过检索技术来增强生成过程。具体来说,它首先从各种数据源中检索出与待解答问题最相关的信息,然后将这些信息作为背景知识融入到问题的生成过程中。这样,大语言模型在生成答案时就可以参考这些真实、准确的信息,从而提高答案的质量和可靠性。
RAG技术在实际应用中表现出色,受到了广泛关注。它不仅可以应用于问答系统,还可以用于聊天机器人、文本生成等众多领域。同时,RAG技术也推动了向量搜索领域的发展,很多初创公司基于RAG技术提供了向量数据库服务。
总的来说,大模型中的RAG技术,通过结合检索和生成技术,有效地解决了大语言模型在实际应用中遇到的一些问题,提高了模型的性能和可用性。

2.4 Fine-tuning架构

大模型的Fine-tuning是指在使用大规模预训练模型(如GPT-3、LLaMA、GPT-4等)的基础上,通过少量的样本进行微调,以适应特定的任务或数据集。这种方法可以充分利用预训练模型中的通用知识,同时避免从头开始训练一个全新的模型,从而节省计算资源和时间。
在大模型上进行Fine-tuning通常面临以下挑战:
1. 计算资源消耗:大模型通常具有数十亿甚至千亿的参数,直接进行Fine-tuning需要大量的计算资源,如GPU或TPU集群。
2. 存储需求:训练大量的模型副本会占用大量的存储空间。
3. 模型调整复杂性:大模型可能有复杂的结构和多个层,对模型的调整和管理也更为复杂。
为了解决这些问题,可以采用以下策略:
1. 参数高效Fine-tuning:通过仅微调模型中的一部分参数(如Adapter Tuning、Prefix Tuning、Prompt Tuning等),减少需要更新的参数数量,从而降低计算资源的需求。
2. 知识蒸馏:将大模型的知识通过蒸馏过程转移到一个小模型中,这样可以在保持性能的同时减少模型的规模和计算需求。
3. 模型剪枝和量化:通过剪枝去除模型中不重要的参数,并进行量化以减少模型的复杂性和计算资源的需求。
4. 动态Fine-tuning:根据任务的动态需求调整模型的规模和计算资源,例如,在任务繁忙时增加模型规模,闲暇时减少。
大模型的Fine-tuning是一个平衡通用性和任务特异性的过程,需要根据具体的任务需求和计算资源限制来权衡不同的策略。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/72170
推荐阅读
相关标签
  

闽ICP备14008679号