当前位置:   article > 正文

揭秘大模型AI Agent:人工智能的新纪元_大模型与ai agent

大模型与ai agent

什么是AI Agent(LLM Agent)

“Agent”是一个跨学科的概念,涵盖了哲学、计算机科学、经济学、生物学等多个领域。尽管定义和应用范围各异,代理的核心特征在于其自主性、感知和决策能力,以及目标导向的行动能力。理解代理在不同领域中的具体应用和特征,有助于更全面地认识和利用这一概念。

哲学领域中的Agent

在哲学中,Agent通常指具有意图和行动能力的个体或实体。主要特征包括:意图性(Intentionality):代理的行动是基于某种目标或意图的、行动能力(Agency):代理能够自主选择和执行行动、道德和法律责任:代理对其行为的结果负有责任。哲学中的代理可以是人、动物,甚至是具有一定自主性的抽象实体(如公司、政府)。研究内容包括自由意志、道德责任和意识等。

计算机科学和人工智能中的Agent

在计算机科学和人工智能领域,Agent通常指一种能够感知环境、做出决策并采取行动的软件或硬件系统。根据其复杂程度和功能,智能体可以分为以下几类:简单反应智能体(Simple Reflex Agents):基于当前感知做出预定义的反应、基于模型的智能体(Model-Based Agents):维护环境的内部模型,根据模型进行决策、目标导向智能体(Goal-Based Agents):基于目标进行规划和行动、效用导向智能体(Utility-Based Agents):评估不同目标的效用以选择最佳策略。

软件工程中的Agent

软件工程中,Agent是指一种自主的、具备决策能力的软件组件。这些智能体可以用于自动化任务管理、数据处理和用户交互。特征包括:自主性(Autonomy):智能体可以独立运行和决策,社会性(Social Ability):智能体可以与其他智能体或系统进行交互,反应性和主动性(Reactivity and Proactivity):智能体不仅能够对环境变化做出反应,还能够主动采取行动。

Agent 的复杂程度各不相同,一个简单的恒温器可以是一个 Agent,一个大型的国家或者一个生物群体也可能是个 Agent。感知环境、自主决策、具备行动能力,设定明确的目标和任务,适应环境及学习能力,都是 Agent 的关键特点。

图片

通常来说,一个智能体(Agent)可以分为三个主要模块:大脑(Brain)、感知(Perception)和行动(Action)。

大脑(Brain)

大脑模块是智能体的核心,用于进行规划和决策。这个模块通常由一个大语言模型(如GPT)构成,能够处理复杂的推理和决策任务。大脑模块的主要功能包括:

  • 存储感知信息:接收并存储从感知模块传来的环境数据。
  • 知识库检索:访问和检索内部知识库中的相关信息,以支持决策过程。
  • 计划制定:根据当前的环境状态和目标,制定详细的行动计划。
  • 推理决策:进行逻辑推理,选择最优行动策略。

感知(Perception)

感知模块负责对环境进行感知和理解。它通过处理各种类型的数据,如文本、视觉和音频,来拓展智能体对环境的感知能力。感知模块的主要功能包括:

  • 文本感知:处理和理解自然语言文本,提取有用信息。
  • 视觉感知:通过图像和视频数据识别和理解环境中的物体和场景。
  • 音频感知:处理声音和语音信号,识别语音指令和环境声音。

行动(Action)

  • 行动模块负责执行大脑模块制定的决策。它调用相关工具和执行具体操作,并根据执行结果提供反馈。行动模块的主要功能包括:
  • 工具调用:根据决策调用特定的工具或服务,例如执行某个软件命令或控制硬件设备。
  • 任务执行:按照制定的计划执行具体任务,如机器人移动、数据处理等。
  • 反馈获取:监控执行过程,获取执行结果,并将反馈信息传回大脑模块进行进一步处理。

模块间的交互

  • 感知模块收集和处理环境信息,将处理后的数据传递给大脑模块。
  • 大脑模块存储这些信息,并通过知识库检索、计划制定和推理决策来生成具体的行动策略。
  • 行动模块根据大脑模块的决策执行具体操作,并提供执行反馈。

示例

自动驾驶智能体
  • 大脑:使用深度学习模型进行路径规划和决策,包括路线选择和避障。
  • 感知:通过摄像头、激光雷达和雷达感知道路和周围环境。
  • 行动:控制车辆的方向盘、油门和刹车,执行驾驶操作。
智能家居助手
  • 大脑:根据用户指令和环境数据进行决策,例如调节温度或播放音乐。
  • 感知:通过传感器收集家庭环境数据,如温度、湿度和活动情况。
  • 行动:控制家电设备,根据用户需求和感知数据执行操作。

这种模块化设计使智能体能够灵活应对各种环境和任务需求,提高系统的效率和可靠性

AI Agent的结构模型

图片

智能体的应用结构主要分为三种类型:这三种结构各有其特点和适用场景,可根据具体应用需求选择合适的智能体应用结构。

单智能体(Single-Agent)系统

单智能体系统指的是在任务处理或决策过程中,仅依赖一个独立的智能体来完成所有工作。该智能体具有感知、决策和行动的能力,并通过与环境进行交互来实现目标。

感知(Perception):智能体通过传感器或其他输入渠道感知周围环境的状态。

决策(Decision-Making):智能体基于感知到的环境状态,使用内部的规则、算法或学习模型进行推理和决策。

行动(Action):根据决策结果,智能体执行相应的行动,影响环境状态,并反馈到下一轮的感知和决策中。

多智能体(Multi-Agent)系统

图片

1. 环境与输入

Relevant Documents: 相关文档,作为任务的输入信息来源,Python Files: Python文件,作为任务的输出信息来源。

2. Agent Alice 与 Agent Bob 的角色

Agent Alice: 任务:从相关文档中提取信息,观察任务要求,行为:根据文档编写Python代码,交互:把生成的代码部分传送给Agent Bob进行检查。

Agent Bob: 任务:检查Agent Alice生成的代码,行为:根据需求进一步测试和验证代码的正确性,交互:将校验后的Python文件输出。

3. Agent Charlie 的角色

Observation(观察):Agent Charlie从环境中观察信息,包括从Agent Alice和Agent Bob那里接收的任务进展。

Memory(记忆):保留和管理任务和代码相关的记忆信息。

Thought(思考):基于观察到的任务信息进行思考和推理,可能通过调用外部的智能体如OpenAI的GPT-3进行高级处理。

Action(行动):在思考和决策之后采取相应的行动,其中包含使用外部工具辅助任务。

4、工具使用

Agent Charlie可能会调用工具来辅助完成特定任务:Python: 编写和测试Python代码,Google搜索: 查找相关信息和资源,计算工具: 进行必要的计算和处理。

5、流程概览

Agent Alice 获取文档内容:从Relevant Documents中获取需要的信息,生成初步的Python代码。

Agent Bob 校验代码:对Agent Alice生成的代码进行检查和验证,并观察是否符合需求。

Agent Charlie 观察并行动:利用观察到的任务信息,思考和决策之后可能调用外部工具进行辅助,并执行必要的行动。

6、协作与循环

多个智能体通过观察环境交互,不断协作,完成使命任务。这种多智能体系统可以显著提高处理复杂任务的效率和准确性。

人机协作系统

结合了人类的智能和机器的计算能力,通过互动和协作完成任务。这种结构特别适用于需要人类进行复杂决策或创意工作的场合,智能体提供辅助和支持。

交互界面:提供直观的用户界面使人类与智能体进行有效的交流和协作。

辅助决策:智能体根据数据分析和算法提供建议和支持,辅助人类决策。

反馈与学习:智能体从人类的反馈中进行学习,优化自身行为和决策策略。

AI Agent的结构模型

一个基于大模型的AI Agent系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。Agent=LLM+规划技能+记忆+工具使用的基础架构,其中LLM扮演了Agent的“大脑”,在这个系统中提供推理、规划等能力。

图片

大模型与规划:Agent 的“大脑”实现任务分解

智能代理(Agent)的“大脑”通过思维链(Chain of Thought)能力来实现任务的分解和处理。大语言模型(LLM)具备逻辑推理的能力,Agent 可以进一步激发和利用这种能力。当大模型规模足够大时,LLM 就具备了强大的推理功能。在简单推理问题上,LLM 已经展示出很高的准确性,但面对复杂推理问题时,有时仍会出现错误。

实际上,用户无法通过 LLM 获得理想回答的一个主要原因在于提示词(Prompt)设计不够合适,无法充分激发出 LLM 的推理能力。通过追加辅助推理提示词,可以显著提升 LLM 的推理效果。例如,《Large Language Models are Zero-Shot Reasoners》这篇论文的测试中,通过在向 LLM 提问时追加“Let’s think step by step”,数学推理测试集 GSM8K 上的推理准确率从 10.4% 提升到 40.7%。

作为智能体代理,Agent 能够根据给定的目标自主创建合适的提示词,从而更好地激发大模型的推理能力。通过这种方式,Agent 可以以更高的效率和准确度进行复杂任务的分解和解决。

AI 一些术语解读

代理(Agent)

代理通常指能够自主进行决策和行为的实体。在哲学中,代理可以是人、动物,甚至是具有自主性的概念或实体。

人工智能代理(AI Agent)

人工智能代理(AI Agent)是能够感知其环境、做出决策并执行相应操作的智能体。它们通过复杂的算法和模型来分析输入信息,并采取合适的行动。

机器人流程自动化(RPA)

机器人流程自动化(RPA)是一种能够模拟人类在计算机上执行手动操作的软件自动化技术。RPA系统可以自动完成大量重复性和基于规则的任务,例如在银行中处理纸质文件输入、票据验证、数据提取、跨系统数据迁移及自动化IT应用操作等。其主要优势包括降低劳动成本、提高生产力、减少出错率、操作可监控以及开发周期短。RPA在金融、办公自动化和IT流程自动化等领域中应用广泛。

Copilot

Copilot 类似于飞机的“副驾驶”。这一概念依托于底层的大型语言模型(LLM),用户只需简单地下达指令,Copilot 就能生成类似于人类撰写的文本及其他内容。

LangChain

LangChain是一个强大的框架,旨在帮助开发人员构建由语言模型(LLM)和聊天模型驱动的端到端应用程序。它提供了一套工具、组件和接口,简化了应用程序的开发过程。这些应用程序包括文档分析和摘要、聊天机器人以及代码分析等。

大型语言模型(LLM)

大型语言模型(LLM)是一种人工智能算法,利用深度学习技术和海量数据集来进行理解、总结、生成和预测新内容。这些模型在处理自然语言方面表现出色,广泛应用于各种语言处理任务中。

感知记忆(Sensory Memory)

感知记忆是信息处理的初始阶段,涉及对通过感官接收的信息进行短暂的存储。通常持续几百毫秒到几秒钟。例如,当你看到一张美丽的风景照片,感知记忆会暂时保存这张照片的颜色和形状。即使闭上眼睛,你也能在脑海中短暂地“看到”这张照片,这就是感知记忆的作用。

短期记忆(Short-term Memory)

短期记忆类似于一个临时工作台,它能够暂时存储和处理少量信息。举例来说,当你试图记住一个电话号码时,你可能会重复念叨这个号码,直到你拨打它,这就是短期记忆在发挥作用。所有的上下文学习(In-context Learning)都依赖于模型的短期记忆来进行。

长期记忆(Long-term Memory)

长期记忆像一个庞大的仓库,能够存储我们的经验、知识和技能,存储时间可以非常长,甚至延续一生。比如,你学会骑自行车的技能,即使多年不骑,你仍然记得怎么骑行,这就是长期记忆。智能体通常通过外部向量存储和快速检索来实现长期记忆。

记忆流(Memory Stream)

记忆流存储了智能体过去的观察、思考和行动序列。就像人脑依赖记忆系统回溯先前的经验来制定策略和做出决策一样,智能体也需要特定的记忆机制来确保能够熟练处理一系列连续任务。

模块化推理、知识与语言(MRKL)

MRKL代表一种构建AI的方法,用于自主代理的神经符号结构。它将推理、知识理解和语言能力作为不同的模块处理,像搭积木一样,每个积木代表AI的某一能力,组合在一起使AI能够进行复杂的思考和交流。

工具增强的语言模型(TALM)

工具增强的语言模型是指通过工具或技术来增强的语言处理模型,通常通过微调实现。例如,一个AI聊天机器人通过接入搜索引擎或其他数据库,能够提供更准确的回答和信息。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/865294
推荐阅读
相关标签