基于大模型的Agent

作者：码创造者 | 2024-08-11 19:21:12

踩

基于大模型的Agent

2023年，对于所有的人工智能领域只有一个共同的主题——大模型。大模型的受关注程度与发展速度可谓前所未有。其中，基于大模型的Agent又是最近几个月大模型领域的热点。这不开始研究没有几个月，综述文章都出来了，你说快不快，你说吓不吓人。让我们这些小角色疲于奔命也赶不上技术发展的步伐啊。

大模型，全称是大规模语言模型。随着训练数据量和模型参数的增加，大模型开始涌现超强的文本生成能力和分析推理能力。现在的大模型完全具备一个普通人的推理分析能力，只要你能够设计出合理的提示语（Prompt）。也就是说，只要你更够把任务交代清楚，大模型就能够给一个满意的答复。

可是人类还是不满足于现状，他们连布置任务也懒得去做了，直接告诉大模型一个最终目标，让它自己去理解任务、分解任务、再去执行任务。因此基于大模型的Agent被提出，它充分发挥了大模型强大的推理能力。下面给出基于大模型的Agent通用框架。

基于大模型的Agent通用结构

基于大模型的Agent架包括三个组成部分：大脑、感知和行动。作为控制器，大脑（Brain）模块承担着诸如记忆、思考和决策等基本任务。感知（Perception）模块负责从外部环境中感知和处理多模态信息，而行动（Action）模块则使用工具执行任务并反馈到周围环境。

大脑（brain）,是上述框架的核心，主要由大模型去做。借助大模型强大的自然语言交互能力，大脑可以很好的与外界通过自然语言进行交互，即准确理解感知模块输入的信息和生成准确的输出文本反馈。除了与外界交互，更重要的是其强大的推理、分析和决策能力。这些能力是通过大模型的训练自动涌现的。目前也没有一个特别合理的解释，说明为什么简单的语言模型，当数据量和模型参数到达一定规模，就会涌现出之前没有预料到的能力。当然，想要进行准确的推理、分析和决策，还需要一定的知识作为支撑，这些知识包括常识知识和领域知识等。大模型掌握了非常丰富全面的通用领域的尝试知识，但是对于特定领域知识还是有限。

感知（Perception），指对大脑的输入控制。大脑当前最成熟的感知手段还是自然语言输入。但是人类真是的感知场景的多模态的，即我们感知一个事物主要是通过眼睛去看，通过耳朵去听，通过文字去理解等。因此，大模型的感知部分未来的发展趋势一定是多模态融合的，尤其是文本+图片（视频）+音频。当然，在特定问题上也需要对其他感知形式进行处理，最典型的就是传感器产生的数据的感知。

行动（Action），当大脑对感知的多模态信息进行整合与分析之后，就需要根据决策内容进行对应行动。最简单的行动就是返回一段文本，把答案或者执行计划用文本形式返回。稍微复杂一些的话，就是让大模型直接调用一些工具去执行操作。这个就需要大模型知道都有哪些工具，每个工具的用途是什么，这些工具的调用方法等。对于不同的需求，大模型会找到适合的工具去调用，并返回结果。这些工具可以是任意能够通过API调用的服务，当前用的最多的是搜索引擎服务。当然，对于嵌入到机器人上，执行的行为可以更复杂，例如具体的机械臂的操作等。

基于大模型的Agent应用场景非常广泛，通过设计大量的Agent，还可以模拟社会环境去研究社会学问题。

参考：The Rise and Potential of Large Language Model Based Agents: A Survey

喜欢的朋友记得点赞、收藏、关注哦！！！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/码创造者/article/detail/965691