赞
踩
大语言模型在解决对话类问题有了很大突破,然而在实际世界我们往往希望大模型能把各种言语“指令”、操作流程变成实际的产出。从解释问题到解决问题。
举一个例子来讲:
我们问大模型该怎么画一幅水彩画,大模型吧啦吧啦输出了一堆画水彩的流程。如果你真按着他的流程去作画有可能可以得到一幅不错的画。但是如果我们希望的是马上得到一幅画,让模型直接帮忙生成一幅画那是不是更有实际价值。
再比如:
试想一下,当你躺在家里的床上准备睡觉的时候,突然发现窗帘没有关上,如果这时候跟大模型说“请帮我关闭我家的窗帘”,其实我们并不想听到大模型回复了一大段的“关闭窗帘的步骤”,如果大模型真的像一个人一样能够完成这件事情,那该有多酷!甚至当你说出一些稍微复杂指令,比如“窗帘不用全部关上,给我留一个缝”,如果大模型也能“理解”并且能自动将“留一个缝”这种自然语言转换为控制“窗帘闭合百分比”这样的一个量化参数并且真正将窗帘关闭到合适位置的时候,那么大模型才真正能在各行各业的落地中带来一波大的浪潮。
我们并不需要一个只知道聊天的机器人“玩具”,我们需要的正是这种“有手有脚”的大模型、能做事情的大模型,这应该才是我们真正的所需要的大模型的理想形态。那么Agent正是我们通往这种理想形态的一个很重要的技术手段,肯定不是唯一的,但至少是当下这个时间点非常重要的一种技术手段。
要实现大模型从解释问题到解决问题的突破,有两条Agent实现路径:
1.SOP+BOM,提前对解决问题流程抽取,根据问题调用相应处理问题流程
2.设定奖励规则,用RL算法让Agent自主探索
这篇文章重点介绍SOP+BOM实现的Agent方案。
Agent AI被分类为以下几种主要类别:
分类主要基于Agent的功能、应用领域和交互方式。例如:
支持能力
支持调用工具数
操作便捷度
持续开发能力
经典案例
网址:https://www.betteryeah.com/agentstore
斑头雁智能科技,其核心团队源自阿里巴巴钉钉的初创精英,专注于打造零门槛Agent构建平台,旨在迅速激活并释放大模型的强大潜力。该平台内置了包括ChatGLM、阿里通义千问、百度千帆在内的国内外顶尖AI模型,为用户提供了丰富的选择。
1.支持流程编排,支持工具接入,Ai辅助工具、流程function call的prompt生成;
2.具备用户自定义知识导入、简单RAG上下文
3.暂时不具备GraphRAG,跨文件、跨项目内容链接准确度需要用户自己解决
4.支持batch处理能力、支持时间序列能力
5.具备流程追溯、流程执行每步记录能力
6.暂时不具备适用Ai开发的CI/CD开发、测试、运营自动迭代持续开发能力
1.支持常规pdf文本类处理工具
2.支持基础数据库、excel表数据类处理工具
3.支持简单语音类处理工具
4.支持简单图生成类、图理解、ocr处理工具
5.支持简单公网信息检索工具
6.暂时不支持数据结果可视化呈现
1.支持AI自动为流程串接生成稳定function call的prompt
2.常用图、音、信息检索以完成较高质量子链路封装
3.操作流具备每步执行定位、问题追溯能力
4.具备任务批处理能力
5.对工作流做了分类归档,相对容易上手定制自己任务
6.有应用展板方便参考
1.目前看对于企业级别多工作流协同问题基本没考虑到(如何通过中间过程协同)
2.多条工作流之上的编排能力暂时不具备(多条工作流直接如何架设完成模块级别任务)
3.任务到工作流映射可解释性不太好,大部分企业工作模式是需求、细分、落地代码,这中间有明确映射关系,但是现在如果用工作流来替代,回溯这个过程不容易
4.适用与AI开发模式的CI/CD模式没有,如何做大模型的验证、测试、发布、迭代升级、能力补丁升级
5.对于结果呈现部分考虑不够
网址:https://www.coze.cn
Coze,作为字节精心打造的AI Bot开发旗舰平台,致力于赋能开发者,以强大而简洁的界面,加速智能聊天机器人的设计与部署流程。在中文大模型智能体生态中,Coze以其先驱地位傲视群雄,无论是率先布局的市场先机,还是其在智能体编排工具的成熟度、插件的广泛性、兼容大模型种类的多样性,乃至发布渠道的全面覆盖,均展现出非凡实力。
扣子应该是目前市面上看到的Agent编排不管是基础能力、应用生态、操作建议性、后续持续开发做的最好的一款产品。
1.支持流程编排,支持工具接入,Ai辅助工具、流程function call的prompt生成;
2.具备用户自定义知识导入、简单RAG上下文
3.暂时不具备GraphRAG,跨文件、跨项目内容链接准确度需要用户自己解决
4.支持batch处理能力、支持时间序列能力
5.具备流程追溯、流程执行每步记录能力
6.暂时不具备适用Ai开发的CI/CD开发、测试、运营自动迭代持续开发能力
1.支持常规pdf文本类处理工具
2.支持基础数据库、excel表数据类处理工具
3.支持简单语音类处理工具
4.支持简单图生成类、图理解、ocr处理工具
5.支持简单公网信息检索工具
6.暂时不支持数据结果可视化呈现
1.支持AI自动为流程串接生成稳定function call的prompt
2.常用图、音、信息检索以完成较高质量子链路封装
3.操作流具备每步执行定位、问题追溯能力
4.具备任务批处理能力
5.对工作流做了分类归档,相对容易上手定制自己任务
6.有应用展板方便参考
1.目前看对于企业级别多工作流协同问题基本没考虑到(如何通过中间过程协同)
2.工作流之上的编排能力暂时不具备(多条工作流直接如何架设完成模块级别任务)
3.任务到工作流映射可解释性不太好,大部分企业工作模式是需求、细分、落地代码,这中间有明确映射关系,但是现在如果用工作流来替代,回溯这个过程不容易
4.适用与AI开发模式的CI/CD模式没有,如何做大模型的验证、测试、发布、迭代升级、能力补丁升级
5.对于结果呈现部分考虑不够
网页链接:https://open.dingtalk.com/document/ai-dev/introduction-to-ai-assistant
目前市面上可见的企业应用最好的AI Agent,应该是to B做的最好的最贴近实际需求的Ai Agent。
钉钉AI助理的功能导览图,
总的来说,钉钉AI助理是一个基于人工智能技术的个人助理工具,旨在帮助用户提高工作效率和管理个人事务。通过自然语言处理、机器学习和数据分析等技术,钉钉AI助理可以实现智能问答、文档创作、会议纪要、日程安排、任务管理、数据分析等功能,为用户提供智能化的工作和生活体验。
拥有丰富的企业级别的工作插件,是丰富的企业场景、数据积累和生态应用。AI助理市场连接钉钉积累的SaaS应用、低代码应用生态,并通过开放能力连接企业自建系统、外部第三方平台,低门槛地创造AI助理。
根据需要可以自定义工作流。
网址:https://agents.baidu.com/
百度AgentBuilder是一款智能体开发工具,旨在降低智能体开发门槛,让每个人、每个组织都能够成为智能体的开发者。AgentBuilder是百度推出的三大AI开发工具之一,另外两个工具分别是AppBuilder和ModelBuilder(小纸条之前的文章给大家介绍过各家产品们的区别)。
产品形态:基于文心大模型的智能体平台,也是平台型。
开发方式:支持开发者根据自身行业领域和应用场景选择不同类型的开发方式,提供低成本的prompt编排方式。
功能特点:提供零代码和低代码两种开发模式,适合不同技术背景的开发者
来看下智能体中心大家都在用什么,热门的主要也还是聚焦提效、娱乐、生活、以及实时热点的高考。
网址:https://modelscope.cn/studios/agent
开发方式多元化:该框架支持创建多样化的多模态AI Agent,涵盖客户服务、个人助理等多个领域,满足不同场景下的智能化需求。用户可以根据具体业务场景,轻松构建出既能处理文本对话,又能理解图像、语音等多类型信息的智能体,实现全方位的用户交互体验。
一键协作,简化流程:在AI项目开发中,模型间的协作至关重要。因此,该框架创新性地引入了一键发送指令调用其他AI模型的功能,大幅简化了模型集成与协作的流程。用户无需深入技术细节,即可轻松实现多模型间的无缝对接,提升整体项目的智能化水平和响应速度。
低/零代码平台,降低门槛:为了进一步降低AI Agent的开发门槛,结合了低/零代码平台的设计理念,让非技术背景的用户也能参与到AI应用的开发中来。通过直观的图形化界面和丰富的预设模板,用户可以快速上手,实现个性化定制的智能体,无需编写复杂的代码。
广泛适用,未来可期:该框架设计之初就充分考虑了未来技术的发展趋势,因此它不仅适用于当前多种业务场景,还具备高度的可扩展性和兼容性。随着开源大模型的不断涌现与更新,我们将持续优化该框架,确保它能够快速适配更多新增的开源大模型,为用户提供更加丰富和强大的AI解决方案。
网址:https://xinghuo.xfyun.cn/botcenter/createbot
** 讯飞科技,以其深厚的AI技术底蕴,携手星火V3.0这一强大引擎,精心打造了一个专注于虚拟人格GPTs应用的创新平台。该平台不仅代表了讯飞在人工智能领域的又一里程碑式成果,更是为探索个性化智能交互体验开辟了全新的道路。
智能体中心,是由讯飞官方精心设计的虚拟人格模板**。这些模板各具特色,涵盖了从亲切友善的客服助手到风趣幽默的聊天伙伴,再到专业严谨的顾问导师等多种角色设定。
用户可根据自身需求与偏好,轻松选择一款合适的模板作为起点,也可以通过平台的强大功能进行二次改造与个性化定制。
注:本例摘自《阿里云服务领域Agent智能体》
除了有上述的行业Agent设计框架作为参考,还必须要结合业务,那么我们就来看一下真正的小二是如何解决复杂类问题的,以下图中的真实工单为例:
第①轮,根据客户问题场景进行反问,获取到需要执行退订所需的基本信息。
图5 阿里云售后工作台中小二解决问题的流程示例
第②轮,根据查询到的实例和订单状态,继续与客户沟通确认,从而一步步解决问题。
根据上图中的情况,这个真实实工单场景的流程分解如下:
根据这个真实的人工客服小二解决问题的Case,抽象一下阿里云售后服务解决问题的一个经典步骤基本上是:
**“问题识别” -> “查询SOP工具” -> “反问客户、获取信息” -> “根据信息查询工具” -> “查询到工具执行结果” -> “根据执行结果来回复客户” -> “客户继续沟通” -> … -> “解决问题” **
根据用户的问题,大模型要做的事情可以抽象为两大类:Planing(包括Action、Observation)、Generation(主要是Response)。其中,Planing过程是一个多步工具调用的过程,会进行循环调用工具并观察返回结果,直到完成信息收集或工作操作,期间包括API的正常调用、复杂问题拆解搜索、搜索结果不佳时重新搜索等。
根据阿里云目前解决工单方式的主要的步骤,可以抽象出大模型Agent的主要步骤,流程如下图所示:
阿里云服务领域Agent的整体设计流程
**1、API检索:**先将与用户问题Query最相关的API接口进行前置检索和召回;
**2、API选择:**然后用大模型读取当前Query和上下文Context,来判断需要使用哪些接口,以及规划调用顺序;
**3、参数判断:**判断需要调用的API接口所需参数是否已经提供,如果未提供,需要向用户“反问”获取信息;
**4、参数组装:**如果客户提供了完整的参数信息,或者当反问客户之后拿到了缺失的参数信息,就生成调用该API所需的入参结构,如JSON结构;
上面对服务领域的Agent进行了框架设计,实际工作想要让Agent能力真正的落地,还需要对服务领域大模型进行Agent相关能力的训练和评估。
通义千问官方提供的Agent能力为服务领域大模型的Agent能力提供了很好的基础,但是我们的业务属性比较强,Qwen官方的Agent能力在具体业务上使用的时候,还是有一定的不足,因此,最终还是需要按照业务场景进行深度定制和微调训练,才能真正做出符合我们需求的领域Agent能力。
根据用户Query的分布特点,在阿里云客服场景下,大部分客户的问题中缺失具体信息的较多,很多问题都是“ECS连不上”、“备案进度查询”这类简明的意图名称,因此很难一次性直接提取出必填的参数信息,所以绝大多数的场景都需要参数“反问”的能力,那么涉及到反问澄清,就需要具备多轮的Agent对话能力,也就在客户提供了相应信息的情况下,Agent还能够接得上之前的意图,并且继续完成调用的链路,除此之外,还需要增加不需要调用API的情况,以及无参数提取等情况,让大模型能够知道在什么场景下要调用什么API、调用的动作、参数的提取、API的执行情况等等。整体的训练流程图如下所示:
大模型要实现从“解释”问题到“解决”问题的跨越,就离不开Agent。目前Agent有两条实现路径:
1.SOP+BOM,提前对解决问题流程抽取,根据问题调用相应处理问题流程
2.设定奖励规则,用RL算法让Agent自主探索
文章主要是介绍了SOP+BOM的agent实现路径。这条实现路径更可控更适合当前企业实际需要。
结合当前市面的几款产品,提出了:基本能力、支持工具集、操作编辑性、持续开发能力,四个维度的差评测评标准;对几款产品做了测评评价。目前看产品都具备基本工作流编排能力、每个流程测试、追溯能力,都支持自动化AI生成工具function call能力提高大模型对工作调取能力。但是目前看几款产品基本都是对单一简单工作流支持较好;但对于企业中应用较多的多流程协同、多条工作流直接如何架设完成模块级别任务、任务到工作流映射可解释性不太好、适用与AI开发模式的CI/CD模式没有、结果呈现部分考虑不够。
最后一部分参考阿里云《阿里云服务领域Agent智能体》给出来Agent从“解释”问题到“解决”问题的实践。给出如何基于实际问题做流程拆取、如何设计chatbot、执行流程、工具集三部分衔接。并给出了对于问题相对定制情况下,如何设计数据集训练大模型能力,适配到Agent需要的执行流程模型能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。