赞
踩
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
当ChatGPT首次推出时,AI领域的人们都在谈论新一代的AI助手。然而,过去一年里,这种兴奋已经转向了一个新目标:AI代理。
Google在五月的年度I/O大会上,重磅推出了名为Astra的新AI代理,用户可以通过音频和视频与其互动。OpenAI的新GPT-4o模型也被称为AI代理。
这不仅仅是炒作,尽管确实有一些夸大其词。科技公司正在投入巨资开发AI代理,他们的研究努力可能会带来我们梦寐以求的实用AI。包括Sam Altman在内的许多专家都认为它们是下一个大事件。
目前,对AI代理的研究还处于初期阶段,尚无明确的定义。但简单来说,它们是能够在动态环境中自主做出决策的AI模型和算法。Nvidia公司的高级研究科学家Jim Fan领导着该公司的AI代理项目,他表示,AI代理的宏大愿景是一个能够执行大量任务的系统,就像一个人类助手一样。未来,它可以帮助你预订假期,还会记得你喜欢豪华酒店,只推荐四星级或以上的酒店,并在你选择后直接预订。它还会根据你的日程推荐最合适的航班,并根据你的偏好规划行程,甚至会根据天气预报列出要带的物品清单。它可能还会把你的行程发送给住在目的地的朋友,并邀请他们一同前往。在工作场所,它可以分析你的待办事项并执行任务,比如发送日历邀请、备忘录或电子邮件。
一个理想的代理应该是多模态的,能够处理语言、音频和视频。例如,在Google的Astra演示中,用户可以用智能手机摄像头对准物体并提问,代理可以对文本、音频和视频输入做出回应。
这些代理还可以简化企业和公共组织的流程。伦敦大学学院人工智能中心主任David Barber表示,AI代理可能成为更复杂的客户服务机器人。当前一代基于语言模型的助手只能生成句子中的下一个可能单词,而AI代理则可以自主执行自然语言命令,处理客户服务任务。例如,代理可以分析客户投诉邮件,然后检查客户的参考号码,访问客户关系管理和交付系统等数据库,确定投诉是否合理,并按照公司的政策处理。
总体来说,AI代理大致分为两类:软件代理和具身代理。软件代理运行在计算机或手机上,使用应用程序,比如前面提到的旅行代理。具身代理则位于3D世界中,如视频游戏或机器人。这类代理可以通过让人们与AI控制的非玩家角色互动,使视频游戏更具吸引力。这些代理还可以帮助构建更有用的机器人,协助我们完成日常家务,如折叠衣物和烹饪。
Fan曾参与开发了一个名为MineDojo的具身AI代理,该代理在热门游戏《我的世界》中,通过从互联网上收集的大量数据,学习了新技能和任务,能够自由探索虚拟3D世界,完成复杂任务。视频游戏是现实世界的良好代理,因为它们要求代理理解物理、推理和常识。
普林斯顿大学的研究人员在一篇尚未经过同行评审的新论文中指出,AI代理通常具有三个特征。如果AI系统能够在复杂环境中不经指示地追求困难目标,它们被认为是“有代理性”的。如果它们能够用自然语言接受指令并自主行动,则也符合标准。最后,如果系统能够使用工具(如网络搜索或编程)或能够规划,则也可以称为代理。
华盛顿大学计算机科学教授Chirag Shah表示,术语“AI代理”已经存在多年,不同时间有不同的含义。Fan说,有两波代理浪潮。目前的浪潮得益于语言模型的兴起和ChatGPT等系统的发展。前一波浪潮是在2016年,当时Google DeepMind推出了AlphaGo,一个能够玩并赢得围棋比赛的AI系统。AlphaGo能够做出决策并制定策略,这依赖于强化学习,一种奖励AI算法理想行为的技术。
但这些代理并不通用,Google DeepMind的研究副总裁Oriol Vinyals表示。它们是为非常具体的任务创建的,例如下围棋。新一代基于基础模型的AI使代理更为普遍,因为它们可以从人类互动的世界中学习。
还有许多未解的问题需要回答。AI初创公司Imbue的CEO兼创始人Kanjun Qiu认为,代理的现状类似于十多年前的自动驾驶汽车。它们能做一些事情,但还不可靠,仍然不是真正的自主。例如,编程代理能生成代码,但有时会出错,而且不知道如何测试其生成的代码。因此,人类仍需要积极参与。AI系统还无法完全推理,而这在复杂且模糊的人类世界中是至关重要的。
“我们还远未拥有能够自动化所有这些杂务的代理,”Fan说。当前系统“会产生幻觉,有时也不遵循指示,这让人烦恼。”
另一个限制是,AI代理在一段时间后会失去对所做事情的跟踪。AI系统受限于其上下文窗口,即它们在任何给定时间能够考虑的数据量。
为了应对这一问题,Google增加了其模型处理数据的能力,使用户能够与它们进行更长时间的互动,记住更多关于过去互动的内容。该公司表示,正在努力使其上下文窗口在未来变得无限。
对于机器人等具身代理,还有更多限制。没有足够的训练数据来教它们,研究人员才刚刚开始利用基础模型在机器人领域的潜力。
在所有的炒作和兴奋中,需要记住的是,对AI代理的研究仍处于非常早期的阶段,可能需要多年时间才能体验到它们的全部潜力。
可以试试。你很可能已经尝试过它们的早期原型,比如OpenAI的ChatGPT和GPT-4。Qiu说,“如果你在使用感觉智能的软件,那就算是一种代理。”
目前,我们拥有的最佳代理是具有非常狭窄和特定用例的系统,如编程助手、客户服务机器人或类似于Zapier的工作流程自动化软件。但这些与能够执行复杂任务的通用AI代理相去甚远。
“如今,我们有了这些功能强大的计算机,但我们仍需微观管理它们,”Qiu说。
OpenAI的ChatGPT插件,允许人们为网络浏览器创建AI助手,这是对代理的一种尝试。但这些系统仍然笨拙、不可靠,且缺乏推理能力。
尽管如此,这些系统有一天将改变我们与技术的互动方式。Qiu认为,这是一种需要关注的趋势。
“这不是‘天哪,我们突然有了通用人工智能’……而是‘天哪,我的计算机能做的事情比五年前多得多’,”她说。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。