当前位置:   article > 正文

书生浦语第二期第六节课笔记(Lagent & AgentLego 智能体应用搭建)

书生浦语第二期第六节课笔记(Lagent & AgentLego 智能体应用搭建)

一、智能体简介

1.什么是智能体(agent)?

        智能体是可以感知环境中的动态条件,能采取动作影响环境,能运用推理能力理解信息、产生推断、决定动作的大模型。

2.为什么会有智能体?

  1. 大模型会产生幻觉,模型会生成虚假信息,与现实严重不符或脱节。
  2. 大模型训练数据过时,无法反映最新趋势。
  3. 大模型在面对复杂任务时,可能会频发错误输出现象,影响客户对其的信任度。

3.智能体组成

  •  大脑:作为控制器,承担记忆、思考和决策任务。接受来自感知模块的信息,并采取相应的动作。

  • 感知:对外部环境的多模态信息进行感知和处理。包括但不限于图像、音频、视频、传感器等。

  • 动作:利用并执行工具以影响环境。工具可能包括文本的检索、调用相关API、操控机械臂等。

4.智能体范式

        AutoGPT是一种自动化文本生成模型 ,它是基于GPT(Generative Pre-trained Transformer)的改进版。GPT是一种基于Transformer的预训练语言模型,它可以在大规模语料库上进行预训练,然后在各种下游任务中进行微调。 AutoGPT通过自动搜索算法来优化GPT的超参数,从而提高其在各种任务上的表现。
 解释转自5000字详解AutoGPT原理&保姆级安装教程 - 知乎 (zhihu.com)

         ReWOO将ALM的关键组件(逐步推理、工具调用和摘要)划分为三个独立的模块:Planner、Worker和Solver。Solver分解一项任务,制定一个相互依存的规划蓝图(blueprint),每个规划都分配给Worker。Worker从工具中检索外部知识提供证据。Solver综合所有规划和证据,生成初始任务的最终答案。

解释转自ReWOO: 高效增强语言模型中解偶观测和推理 - 知乎 (zhihu.com)

        ReAct本质上就是把融合了Reasoning和Acting的一种范式,推理过程是浅显易懂,仅仅包含thought-action-observation步骤,很容易判断推理的过程的正确性,使用ReAct做决策甚至超过了强化学习,上图显示的是四种prompt方法的比较,(1)第一种是标准的,第二种是Chain-of-thought(仅推理),图c是仅执行。(d)是ReAct,解决了一个HotpotQA的问题;(2)比较了Act-only和ReAct的方法来解决AlfWorld游戏的问题。总之,chain-of-thought推理是一个静态的黑盒,它没有用到外部的知识,所以在推理过程中会出现事实幻想(fact hallucination)和错误传递(error propagation)的问题。Act-only的方法很显然就是没有利用LLM的推理能力。ReAct克服了普遍存在的问题思维链推理中的幻觉和错误传播问题,通过与简单的维基百科API交互,生成类似于人的任务解决型轨迹,解释性进一步增强。 

解释转自2023年新生代大模型Agents技术,ReAct,Self-Ask,Plan-and-execute,以及AutoGPT, HuggingGPT等应用 - 知乎 (zhihu.com)

二、Lagent和AgentLego简介

1.Lagent 是什么

        Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。

        Lagent 目前已经支持了包括 AutoGPT、ReAct 等在内的多个经典智能体范式,也支持了如下工具:

  • Arxiv 搜索
  • Bing 地图
  • Google 学术搜索
  • Google 搜索
  • 交互式 IPython 解释器
  • IPython 解释器
  • PPT
  • Python 解释器

2.AgentLego 是什么

        AgentLego 是一个提供了多种开源工具 API 的多模态工具包,旨在像是乐高积木一样,让用户可以快速简便地拓展自定义工具,从而组装出自己的智能体。通过 AgentLego 算法库,不仅可以直接使用多种工具,也可以利用这些工具,在相关智能体框架(如 Lagent,Transformers Agent 等)的帮助下,快速构建可以增强大语言模型能力的智能体。

        AgentLego 目前提供了如下工具:

通用能力语音相关图像处理AIGC
  • 计算器
  • 谷歌搜索
  • 文本 -> 音频(TTS)
  • 音频 -> 文本(STT)
  • 描述输入图像
  • 识别文本(OCR)
  • 视觉问答(VQA)
  • 人体姿态估计
  • 人脸关键点检测
  • 图像边缘提取(Canny)
  • 深度图生成
  • 生成涂鸦(Scribble)
  • 检测全部目标
  • 检测给定目标
  • SAM
    • 分割一切
    • 分割给定目标
  • 文生图
  • 图像拓展
  • 删除给定对象
  • 替换给定对象
  • 根据指令修改
  • ControlNet 系列
    • 根据边缘+描述生成
    • 根据深度图+描述生成
    • 根据姿态+描述生成
    • 根据涂鸦+描述生成
  • ImageBind 系列
    • 音频生成图像
    • 热成像生成图像
    • 音频+图像生成图像
    • 音频+文本生成图像

3.两者的关系

        经过上面的介绍,我们可以发现,Lagent 是一个智能体框架,而 AgentLego 与大模型智能体并不直接相关,而是作为工具包,在相关智能体的功能支持模块发挥作用。

两者之间的关系可以用下图来表示:


 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/674794
推荐阅读
相关标签
  

闽ICP备14008679号