赞
踩
AI Agent即系统型超级应用,智能代理能够通过零样本或少样本的提示,或者通过人类的反馈来学习如何选择以及调用工具。
感知:Agent从环境中收集信息并从中提取相关知识的能力。
规划:Agent为了某一目标而做出的决策过程。
行动:基于环境和规划做出的动作。
赛道类型:元宇宙型Agent,与现实场景结合,比如招聘、营销、空调管理、运维状态监控、具身机器人(如机械臂、自动驾驶等)。
质量优势:多个职能代理面对同一个问题时可能会产生不同的观点,每个智能代理通过彼此之间的反馈与自身知识的结合,不断更新自己的答案,能够有效减少幻觉或虚假信息的产生,从而提高回复的可靠性与忠实性。
数量优势:基于分工原则,每个智能代理专门从事特定的工作,通过结合多个职能代理的技能优势和领域知识,能够有效提高系统的效率和通用性。
AIAgent是一个以任务驱动的具备自主能力的智能体,不仅需要大模型这个核心“大脑”,也需要任务规划、记忆与外部工具使用等能力。
对于AIAgent智能体在企业应用中落地,分为以下几类:创作与生成类助手、企业知识助手、数据分析助手、应用/工具助手、Web操作助手、自定义流程助手。
以内容创作生成为主要能力的AI Agent从技术上分为两种:
(1)单Agent的内容生成
简单地将大模型的生成能力通过API集成到其他应用与业务流程中,替代或简化原来由人工完成的部分工作。具体应用场景如下:
以上类型的AI助手简单的借助Prompt工程即可实现(与C端个人助手并无本质区别)
(2)基于多Agent协作(可能还有人类)的内容生成
典型的是虚拟机器人软件公司,由AIAgent担任多个软件开发岗位,通过相互协作完成某个软件开发任务。 这种多Agent协作型的助手可以借助Multi-Agents框架来简化开发实现。比如MetaGPT,可以根据自然语言描述的开发任务,组建Agent团队 (PM、架构师、程序员、QA等),遵循SOP并最终输出完整软件开发的 成果(文档、代码、API说明等)。
企业知识助手,即通过“外挂”私有知识库来扩充大模型的知识储备,以提供基于自然语言的、对话式的企业私有知识访问(对应到AIAgent的基本能力之一:持久化记忆)。用以解决通用模型在面向企业应用时领域知识不足导致的幻觉问题。
(1)技术实现原理
企业知识助手通常借助于大模型的RAG(检索增强生成)方案来实现,其本质上也是一种提示工程:借助于在大模型输入时携带相关的私有知识上下文,让大模型理解、总结、整理并回答用户问题。只是这里的私有知识上下文需要借助嵌入模型(EmbrddingModel)、向量数据库。
(2)技术实现方式
基于RAG方案的AI助手可以通过LangChain或者Llamalndex大模型主流应用开发基础框架。这两个基础框架对大量的模型、文档加载器、向量数据库、嵌入模型等做了抽象封装,并对RAG应用过程中的知识检索、Prompt组装等过程做了简化,可以大大简化开发过程。
另一类技术实现方式是选择具有开箱即用能力的RAG应用构建平台。相对基础开发框架来说,提供了更完善的RAG应用构建工具,比如私有知识库的管理维护、测试、对话流程编排、提示词自定义等能力。这里推荐两个项目,一个是基于Langchain构建的Langcahin-Chatchat;另一个是 FastGPT,后者有用于商业运营的SaaS应用,可以自行体验。
数据分析与商业智能(BI)在中大型企业的日常运营中的重要性母庸置疑。传统BI工具使用门槛高、过度依赖技术部门、结果产出周期长的问题可以借助大模型的能力得以缓解。
基于大模型的数据分析助手(DataAgent)支持通过自然语言获取数据、分析数据与展示数据。数据源形式多样化,支持本地Excel数据、关系型数据库、非结构化数据。技术实现途径分为:自然语言转API、自然语言转SQL、代码解释器 (转代码)。
推荐除Langchain之外构建数据分析助手的工具/项目:
企业应用中的AI助手需要与现有应用(CRM、OA系统)做集成与交互,以完成用户特定任务或者驱动业务流程。比如:你可以让AI调用办公系统接口,帮你在协同办公系统中提交付款申请; 你可以通过调用第三方平台公开接口,来获得最新某上市公司的财务报告。这些是AIAgent另一项重要能力:工具使用。
AI应用工具助手可以把自然语言转换成企业应用或者互联网开放API的Agent形式。当然,在复杂任务场景下的这种调用往往不是单一的。这就要求大模型有强大的对自然语言转API的能力,在实际使用中,其主要体现以下两个方面:能否根据上下文理解,精确匹配到需要使用的API(一个或者多个);能否准确地提取或生成每个AP的调用参数。
在构建企业基于大模型的应用助手时,需求注意API过多这一工程问题。过多的API描述可能会导致上下文溢出,同时大量API相互干扰,会提高大模型推理时的错误率。可考虑的优化方案是借助向量库语义搜索,每次只检索出本次任务相关的API描述,再交给LLM处理。 这就需要设计一个标准化的、容易扩展、易于插拔的工具/插件架构。即能够灵活快速地扩展Agent的“工具包”,在增加新的工具时,通过简单的配置甚至自动化生成,即可给Agent动态赋予新的工具能力。
Web助手即一种类似RPA(机器人流程自动化)的AI智能体。其主要能力是自动化网络浏览、操作与探索。 可作为个人数字助理,通过简单对话即可让AI在线订票等操作。对于企业来说,可作为企业的数字员工,简化企业日常工作中重复性较高、流程与规则固定、大批量的操作性事务。比如批量订单处理、批量客户联络、批量网站抓取等,以此提高效率,降低错误率。
传统的RPA机器人工作方式即在软件操作层面进行流程化配置,但每个任务都需要根据前端应用界面做精心配置与调试,自适应能力较差。 在大模型出现以后,可以利用大模型的理解与分析推理能力,让AI更加智能的规划与分解任务过程,然后借助浏览器完成执行;未来可利用像GPT-4这样的视觉模型,更智能的理解界面元素与功能,实现完全自主的智能操作,具备更强的自适应能力。
理想中的AIAgent是在丢给他一个工具包与一些知识以后,借助于大模型的理解、推理能力,完全自主进行规划与分解、设计任务步骤,并智能的使用各种工具,检索知识,输出内容,完成任务。但是在企业应用中, 由于企业知识、应用、业务需求的千差方别,以及大模型自身的不确定性, 如果这么做,那么结果很可能是“开盲盒”一样的不可控。所以要求对AI智能体的执行过程与细节进行更多的控制,来让AI按照人类确认过的工作流程来完成任务。 比如HR简历自动化筛选的场景中,需要更加细致的去定义整个自动化工作流程,包括:
在实际应用中,基于LLM的工作流既可以是对话机器人来触发;也可以是后台触发。 其技术实现方式如下:
国内外非常多的AI独角兽/大厂均瞄准了“AI Agent”搭建制作平台这一赛道。从产品角度整理一下,目前AI Agent搭建开发平台的2种形式。
使用prompt定义Agent的人设与行为,再通过插件进行加强。这里的代表便是GPTs。目前绝大多数的Agent开发平台都走的这一形式,如Coze。这一搭建形式的优势是搭建快速,例如很多产品,现在都只需要输入一个大致主题,平台便能自动生成全面且完善的人设行为Prompt。最大的不足是无法满足逻辑复杂且有较高稳定性要求的任务流。
通过流程图的方式,编排Agent的工作流。这一Agent搭建形式其实出现的更早,在AI1.0时代的TOB智能客服产品中,就能看到很多这样的单间形式,通过搭建不同任务的工作流,实现Agent的业务完成。代表产品是Voiceflow。这一搭建方式的优势是能设计实现庞大复杂的工作流程,通过意图跳转、if/else、循环等等逻辑,能搭建出企业内部非常庞大复杂的流程,最大的不做则是流程配置上手较为困难。
两种形式,各有优势,市面上基于第一种形式的产品,例如coze,均也加入了第二种形式作为补充~
AI Agents是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中,Agents之间会进行竞争和协作等多种形式的动态交互,进而产生惊人的群体智能效果。
CAMEL框架设计了灵活的模块化功能,包括不同代理的实现、各种专业领域的提示示例和AI数据探索框架等,因此CAMEL可以作为一个基础的Agents后端、支持AI研究者和开发者更加轻松的开发有关于多智能体系统、合作人工智能、博弈论模拟、社会分析、人工智能伦理等方面的应用。
CAMEL框架具备协作角色扮演能力,CAMEL内置的协作式role-playing框架可以在人类用户不具备专业知识的情况下,通过Agents之间的协作方式完成复杂任务。
CAMEL框架具备具身智能体的能力,AI Agents可以理解为在模拟一些操作,而没有与现实世界交互或使用外部工具执行操作,目前的LLMs已经具备与互联网或其他工具API交互的能力,CAMEL也提供了能够在物理世界中执行各种操作的具身智能体,可以实现浏览互联网、阅读文档、创建图像、音频和视频等内容,甚至可以直接执行代码。
1.会话智能体
(1)创建任务,指定头脑风暴的代理,获取指定任务
(2)角色扮演会话,来解决问题
2.使用LangChain和OpenAI API构建多模态AI智能体
项目目标:从YouTube下载教程视频,转录音频,并创建AI智能体来询问有关内容的问题
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。