赞
踩
什么是大模型?
大模型,即 Large Language Model(LLM),运用深度学习技术,凭借互联网海量数据训练,参数量级高达数十亿至数万亿。这使得大模型能学习复杂细节,具备强大问题解决能力,跨领域能力出色,涵盖自然语言处理、图像识别等,比如:GPT 系列展示的智能对话与文本生成。其“多模态”特性覆盖文本、语音、图片、视频等格式,但训练需巨大计算资源、时间和成本,通常由大公司承担,类似移动互联网中的操作系统。
基础模型预训练后,针对特定任务还需微调以优化性能,该过程虽较预训练成本低,但仍具一定门槛。
目前国内外主要的大模型厂商及产品如下:
OpenAI:GPT 系列, 最新的是 GPT-4o
Anthropic:Claude,最新的 Claude 3.5
Google:Gemini
Meta:LLaMA
Microsoft:与 OpenAI 合作,也推出了自己的大模型,比如:Phi-3
百度:文心一言
阿里巴巴:通义千问
腾讯:混元大模型
字节:豆包
清华智谱:GLM-4
此外,还有创业公司,比如:前段时间火了一把的月之暗面 Kimi。
什么是智能体 Agent?
大模型,比如:GPT 擅长处理多样任务,比如:解答、撰写文档、内容提炼及翻译,但直接面向大众略显不便。因此,类GPT聊天机器人应运而生,作为用户与大模型间的桥梁,尽管它们展示出广泛能力,聊天场景的通用性有时效率不高。
Agent 智能体,作为 AI 核心理念,代表着能感知环境、学习并自主决策以实现目标的实体,无论实体还是虚拟形态,皆展现出高度自主性和智能互动,类似科幻作品中的全能机械助手。
大模型(LLM)智能体,是一种利用大语言模型进行复杂任务执行的应用。如果将大模型(LLM)比作底层操作系统(i比如:iOS 和 Andriod)的话,那么智能体(Agent)就是上层 App。
基于大模型的智能体,则是自主学习、适应并决策的高级存在,无需持续人为干预,超越传统自动化局限,在动态环境中寻找创造性解决方案。将大模型视为操作系统,智能体便是其上的应用程序,工程技术团队正聚焦此领域,推动大模型智能体在复杂任务执行中的应用与发展。
Agent 智能体架构设计
在构建大模型智能体(LLM Agent)的过程中,LLM 扮演着核心控制器或“智慧中枢”的角色,统筹并指导完成任务和响应用户需求的全方位行动。智能体则通过激活 LLM 的强大功能执行任务,同时整合规划策略、记忆功能及高效工具运用等重要组件,共同协作实现既定目标。
大模型智能体框架的核心组件包括:
1. 用户交互界面:捕捉用户的询问或指令。
2. 核心智能体引擎:作为系统的指挥中枢,协调各功能模块。
3. 策略规划模块:为智能体规划后续行动路径。
4. 记忆系统:维护智能体的长期知识库与短期情境记忆。
5. 工具集成层:使智能体能与外界工具和服务互动,执行具体操作。
这些模块协同运作,使大模型智能体能够应对各类请求,无论简易或复杂,不仅直接回应查询,更能深入解析问题,执行多阶任务。智能体的这种广度与深度能力,在复杂信息处理、数据分析乃至视觉呈现等领域展现出巨大应用潜力。
下图提供了智能体架构的详尽视图。
对于没有接触过智能体的人,上述框架可能有点抽象,下面我们以一个例子来说明智能体的架构,假如我们想让AI完成以下任务:
用户:明天上午要去 A 地出差,下午与 X 开会,帮我订好机票、酒店和会议日程。
对于人类助理来说,这是很简单的事情,但以目前大模型的能力,还难以解决这个问题。而从技术角度来说,可以开发一个基于大模型的智能体来解决这类问题,这个智能体主要包含以下部分:
``1. 规划:通过调用大模型的能力将任务分解,先分为出差行程安排和会议预约两个子任务。` `1.1 出差行程安排继续分解为:` `1.1.1 从用户所在地到所在城市机场:` `a. 其中用户所在地通过感知环境信息获得(可以通过用户初始设置或过往历史存放在记忆组件里面)` `b. 决定出行时间` `c. 决定出行方式:如乘坐出租车,预约` `1.1.2 从用户所在城市机场到A地机场:` `a. 决定出行时间` `b. 决定出行方式,预约` `1.1.3 从A地机场到A地某酒店:` `a. 预订A地某酒店` `1. 决定入住时间` `b. 决定从A地机场到达酒店方式:如乘坐出租车,预约` `1.2 会议预约继续分解为:` `1.2.1 查看用户和X的日程,找到二者都空闲的时间段` `1.2.2 确定会议时间,预约会议``2. 记忆:` `2.1 用户所在地应存放在长期记忆中。` `2.2 根据规划的分解,后面的步骤会依赖前面步骤的结果,那么需要把前面步骤的执行结果存放在短期记忆中。``3. 工具使用:` `3.1 通过调用网约车平台接口预约出租车(需要用户授权,授权信息也可以存储在长期记忆中)` `3.2 通过调用航班信息查询接口获取航班信息,调用航班预订接口订机票(需要用户授权,授权信息也可以存储在长期记忆中)` `3.3 通过调用OTA平台接口完成酒店预订(需要用户授权,授权信息也可以存储在长期记忆中)` `3.4 通过调用支付接口完成支付(需要用户授权,授权信息也可以存储在长期记忆中)` `3.5 通过调用日历接口完成日程查询和会议预订``
智能体相关技术
网络上频繁提及的智能体技术,比如:TOT、提示链、RAG、ART、ReAct 等,虽归于提示词策略领域,却多应用于复杂智能体构建,非日常聊天场景常态。以下是这些术语的简化释义:
TOT(思维树):升级版 COT,通过多路径探索问题解答,形成分步的树形结构,助AI全面考量得出最佳解。
提示链:串联各提示词以接力形式引导AI完成任务,层层递进实现目标。
RAG(检索增强生成):融合信息检索与AI生成,先搜后创,利用内外部数据优化输出。
ART(自动推理与工具使用):借力预设任务库,智能体匹配案例、自动推理,并调用工具执行,实现任务自动化。
ReAct(推理+行动):交替进行逻辑推理与实际行动,使 AI 能互动查询,基于实况反馈优化回答,提升实用性和准确性。
单智能体和多智能体
单智能体能够自主执行任务,但面对复杂挑战时可能力有不逮。解决方案是构建多智能体网络,它们协同作业,形成一个综合系统应对用户需求。
以软件开发流程为例:
需求分析:智能体模拟产品经理与用户交流,明确需求并输出设计文档。
架构设计:另一智能体担任架构师角色,依据设计文档制定技术方案。
项目管理:再有智能体扮演项目经理,分配任务并监控进度。
编码实施:编程智能体负责编写代码模块。
质量保证:测试智能体编写测试案例并执行测试。
部署运维:最后,运维智能体负责系统上线与维护。
这些角色特化的智能体协同工作,形成一个高效的软件开发团队,直面并解决用户的具体需求。此概念已非理论,现有企业正积极探索并实践,比如:GitHub上这个项目(https://github.com/assafelovic/gpt-researcher),展示了如何利用多智能体系统针对用户查询自主搜集信息、规划研究议程,并最终产出研究报告,彰显了多智能体协作的强大潜力和现实应用。
智能体开发框架
在大模型智能体的构建技术领域,LangChain 作为一个流行的开源框架备受瞩目,它专注于促进大型语言模型的应用开发,广泛见诸于众多在线文章之中。LangChain 官方主要支持 Python 和 JavaScript 两种编程语言,而社区则展现了高度的积极性,为其他语言环境贡献了诸如`LangChain4J`和`LangChainGo`等移植版本。
除 LangChain 之外,还有诸如 AutoGPT 及微软的 AutoGen 等框架,这些工具多数围绕 Python 这一主流开发语言构建,旨在简化大模型的集成与应用过程。
值得注意的是,针对具备 Java 技术栈的开发者,Spring AI 框架在Java/Spring 生态系统内提供了一种定制化选择,进一步丰富了技术方案的多样性。
尽管上述框架面向技术开发者设计,要求一定的学习投入,但为了解放更多创意并加速智能体的开发进程,众多服务商已推出低代码乃至无代码的智能体搭建平台。这意味着,即便是没有编程背景的用户,也能迅速上手,打造出个性化的智能解决方案。
大厂的智能体平台
国内主流的智能体开发平台涵盖了几个重要玩家:
百度文心智能体平台:提供零代码及低代码开发选项,便于快速创建基本智能体。亲自体验其零代码功能,发现搭建简单智能体颇为高效。
字节跳动的扣子平台,同样支持低代码和零代码开发模式,强化了知识库、插件集成及工作流程自定义等扩展性功能。
阿里系的通义星尘平台,专长于构建角色交互式智能体,尽管目前尚未亲自尝试。
腾讯的腾讯元器平台,亦是未及亲身体验的一员。
这些平台虽各有特色,但整体格局相似,当前智能体应用多偏向基础和初步阶段,尚未迎来真正颠覆性的“明星”应用。一方面,智能体生态系统仍处起步阶段;另一方面,各厂商在激烈竞争下急于推出新品,导致某些基础功能成熟度有待提升。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。