当前位置:   article > 正文

2024 年最重要的人工智能趋势_人工智能趋势2024

人工智能趋势2024

2024 年 2 月 9 日戴夫·伯格曼阅读时间12分钟

2022 年是生成人工智能 (AI) 进入公众意识的一年,2023 年是它开始在商业世界扎根的一年。因此,2024 年将是人工智能未来的关键一年,因为研究人员和企业都在寻求如何将这一技术的飞跃最实际地融入到我们的日常生活中。

生成式人工智能的发展与计算机的发展相似,尽管时间线显着加快。来自少数参与者的大规模集中操作的大型计算机被企业和研究机构可以使用的更小、更高效的机器所取代。在接下来的几十年里,不断的进步产生了业余爱好者可以摆弄的家用电脑。随着时间的推移,具有直观无代码界面的功能强大的个人计算机变得无处不在。

生成式人工智能已经进入了“爱好者”阶段,与计算机一样,进一步的进步旨在以更小的封装实现更高的性能。2023 年,随着 Meta 的 LlaMa 大语言模型 (LLM) 系列的推出,以及随后的 StableLM、Falcon、Mistral 和Llama 2 等,越来越多高效的开放许可证基础模型出现爆炸式增长。DeepFloyd 和 Stable Diffusion 已与领先的专有模型实现了相对平价。通过开源社区开发的微调技术和数据集的增强,许多开放模型现在可以在大多数基准测试中超越除最强大的闭源模型之外的所有模型,尽管参数数量要少得多。

随着进步步伐的加快,最先进模型不断扩展的功能将吸引最多的媒体关注。但最有影响力的发展可能是那些专注于治理、中间件、培训技术和数据管道的发展,这些发展使生成式人工智能对于企业和最终用户来说更加值得信赖可持续和可访问。

以下是来年需要关注的一些当前重要的人工智能趋势。

  • 现实检验:更现实的期望
  • 多模态人工智能
  • 小(呃)语言模型和开源进步
  • GPU 短缺和云成本
  • 模型优化变得越来越容易
  • 定制本地模型和数据管道
  • 更强大的虚拟代理
  • 监管、版权和人工智能道德问题
  • 影子人工智能(以及企业人工智能政策)

现实检验:更现实的期望

当生成式人工智能首次引起大众关注时,典型的商业领袖的知识主要来自营销材料和令人窒息的新闻报道。有形的经验(如果有的话)仅限于使用 ChatGPT 和 DALL-E。现在尘埃落定,商界对人工智能驱动的解决方案有了更深入的了解。

Gartner 炒作周期将生成式 AI 直接定位在“期望膨胀的顶峰”,正处于滑入“幻灭低谷”的风口浪尖[1] ——换句话说,即将进入一个(相对)平淡的过渡期——而德勤的2024 年第一季度的《企业人工智能现状》报告表明,许多领导者“预计短期内会产生重大变革性影响”。[2]现实可能介于两者之间:生成式人工智能提供了独特的机会和解决方案,但它并不适合所有人。

现实世界的结果与炒作相比如何,部分取决于视角问题。像 ChatGPT 这样的独立工具通常占据大众想象的中心舞台,但与现有服务的平滑集成通常会产生更大的持久力。在当前的炒作周期之前,诸如 Google 于 2018 年推出的“Smart Compose”功能等生成机器学习工具并没有被视为范式转变,尽管它们是当今文本生成服务的先兆。同样,许多高影响力的生成式人工智能工具正在作为企业环境的集成元素来实现,这些工具增强和补充而不是彻底改变或取代现有工具:例如,Microsoft Office 中的“Copilot”功能、Adobe 中的“生成填充”功能生产力和协作应用程序中的Photoshop 或虚拟代理

生成式人工智能首先在日常工作流程中建立动力,对人工智能工具的未来的影响将比任何特定人工智能功能的假设优势更大。根据IBM 最近对企业级公司 1,000 多名员工进行的一项调查,推动人工智能采用的三大因素是人工智能工具的进步(使它们更易于使用)、降低成本和自动化关键流程的需求以及人工智能嵌入式数量的增加到标准的现成业务应用程序中。

多模式人工智能(和视频)

话虽如此,最先进的生成式人工智能的野心正在不断增长。下一波的进步将不仅关注增强特定领域内的性能,而且关注可以采用多种类型的数据作为输入的多模式模型。虽然跨不同数据模式运行的模型并不是一种严格意义上的新现象——像 CLIP 这样的文本到图像模型和像 Wave2Vec 这样的语音到文本模型已经存在很多年了——但它们通常只在一个方向上运行,并且被训练来完成特定任务。

新一代跨学科模型,包括 OpenAI 的 GPT-4V 或 Google Gemini 等专有模型,以及 LLaVa、Adept 或 Qwen-VL 等开源模型,可以在自然语言处理 (NLP) 和计算机视觉任务之间自由移动。新模型也将视频纳入其中:一月下旬,谷歌发布了 Lumiere,这是一种文本到视频的扩散模型,还可以执行图像到视频的任务或使用图像作为风格参考。

多模式人工智能最直接的好处是更直观、多功能的人工智能应用程序和虚拟助手。例如,用户可以询问图像并接收自然语言答案,或者大声询问修复某些东西的说明并接收视觉帮助以及分步文本说明。

在更高的层面上,多模态人工智能允许模型处理更多样化的数据输入,丰富和扩展可用于训练和推理的信息。尤其是视频,为整体学习提供了巨大的潜力。斯坦福以人为中心人工智能研究所 (HAI) 杰出教育研究员彼得·诺维格 (Peter Norvig) 表示:“有些摄像机 24/7 不间断地捕捉正在发生的事情,没有任何过滤,没有任何意图。” 。[3] “人工智能模型以前没有此类数据。这些模型将对一切有更好的理解。”

小(呃)语言模型和开源进步

在特定领域的模型中——尤其是法学硕士——我们可能已经达到了参数数量增多带来的收益递减的地步。OpenAI 的首席执行官 Sam Altman(据传其 GPT-4 模型有大约 1.76万亿个参数)在去年 4 月麻省理工学院的 Imagination in Action 活动中提出了同样的建议:“我认为我们正处于这样一个时代的末期:成为这些巨大的模型,我们将通过其他方式让它们变得更好,”他预测道。“我认为人们过于关注参数计数。”

大规模模型推动了这个正在进行的人工智能黄金时代,但它们也并非没有缺点。只有最大的公司才有资金和服务器空间来训练和维护具有数千亿参数的耗能模型。据华盛顿大学估计,训练一个 GPT-3 大小的模型需要1000 多个家庭一年的用电量;ChatGPT 查询的一个标准天的能耗可与 33,000 个美国家庭的日常能耗相媲美。[4]

与此同时,较小的模型所占用的资源要少得多。Deepmind 于 2022 年 3 月发表的一篇颇具影响力的论文表明,在更多数据上训练较小的模型比在较少数据上训练较大的模型具有更好的性能。因此,法学硕士的大部分持续创新都集中在用更少的参数产生更大的产出。正如 3-700 亿参数范围内模型的最新进展所证明的那样,特别是 2023 年基于 LLaMa、Llama 2 和 Mistral 基础模型构建的模型,可以在不牺牲太多性能的情况下缩小模型规模。

开放模型的力量将继续增强。2023 年 12 月,Mistral 发布了“Mixtral”,这是一个集成了 8 个神经网络的混合专家(MoE)模型,每个神经网络有 70 亿个参数。 Mistral 声称,Mixtral 不仅在大多数基准测试中以 6 倍的推理速度优于 Llama 2 的 70B 参数变体,而且在大多数标准基准测试中甚至匹配或优于 OpenAI更大的 GPT-3.5。此后不久,Meta 在 1 月份宣布已经开始 Llama 3 模型的训练,并确认它们将开源。尽管细节(如模型尺寸)尚未确认,但可以合理地预期 Llama 3 会遵循前两代建立的框架。

较小模型的这些进步具有三个重要的好处:

  • 它们有助于人工智能的民主化:更小的模型可以在更容易实现的硬件上以更低的成本运行,使更多的业余爱好者和机构能够研究、训练和改进现有模型。
  • 它们可以在较小的设备上本地运行:这使得在边缘计算和物联网 (IoT) 等场景中可以实现更复杂的人工智能。此外,在本地运行模型(例如在用户的智能手机上)有助于避免因与敏感个人或专有数据交互而产生的许多隐私和网络安全问题。
  • 它们使人工智能更易于解释:模型越大,就越难确定其如何以及在何处做出重要决策。可解释的人工智能对于理解、改进和信任人工智能系统的输出至关重要。

GPU 短缺和云成本

随着云计算成本随着硬件可用性的下降而增加,小型模型的趋势将受到必要性和创业活力的推动。

斯坦福大学 HAI 副主任兼研究教务主任 James Landay 表示:“大公司(以及更多的大公司)都在尝试将人工智能能力引入内部,并且在 GPU 上存在一定程度的竞争。” “这不仅会给 GPU 产量的增加带来巨大压力,还会给创新者带来更便宜、更容易制造和使用的硬件解决方案。” 1

正如 2023 年末 O'Reilly 报告所解释的那样,云提供商目前承担了大部分计算负担:相对较少的人工智能采用者维护自己的基础设施,而硬件短缺只会增加设置本地服务器的障碍和成本。从长远来看,随着提供商更新和优化自己的基础设施以有效满足生成人工智能的需求,这可能会给云成本带来上升压力。[5]

对于企业来说,驾驭这种不确定的环境需要灵活性,无论是模型(必要时依赖更小、更高效的模型,还是实用时依赖更大、性​​能更高的模型)和部署环境。“我们不想限制人们部署[模型]的位置,”IBM 首席执行官 Arvind Krishna 在2023 年 12 月接受 CNBC 采访时谈到 IBM 的watsonx平台时表示。“因此,如果他们想将其部署在大型公共云上,我们就会在那里进行。如果他们想在 IBM 部署,我们就会在 IBM 部署。如果他们想自己做,并且他们恰好有足够的基础设施,我们就会在那里做。”

模型优化变得越来越容易

开源社区最近的成果很好地满足了最大化更紧凑模型性能的趋势。 

许多关键进步不仅是(并将继续)由新的基础模型驱动,而且是由用于训练、调整、微调或对齐预训练模型的新技术和资源(如开源数据集)驱动的。2023 年流行的值得注意的与模型无关的技术包括:

  • 低秩适应 (LoRA): LoRA不是直接微调数十亿个模型参数,而是 需要冻结预先训练的模型权重并注入可训练层(将模型权重变化的矩阵表示为 2 个较小(较低秩)矩阵)每个变压器块。这大大减少了需要更新的参数数量,从而大大加快了微调速度并减少了存储模型更新所需的内存。
  • 量化:就像降低音频或视频的比特率以减少文件大小和延迟一样,量化会降低用于表示模型数据点的精度(例如,从 16 位浮点到 8 位整数),以减少内存使用并加快速度推理。QLoRA技术将量化与 LoRA 相结合。
  • 直接偏好优化 (DPO):聊天模型通常使用来自人类反馈的强化学习 (RLHF)来使模型输出与人类偏好保持一致。尽管 RLHF 很强大,但它很复杂且不稳定。DPO 承诺类似的好处,同时计算量轻且简单得多。

除了 3-700 亿参数空间中开源模型的并行进步之外,这些不断发展的技术可以通过为初创公司和业余爱好者等较小的参与者提供以前无法企及的复杂 AI 功能来改变 AI 格局的动态。

定制本地模型和数据管道

因此,到 2024 年,企业可以通过定制模型开发来追求差异化,而不是围绕“大人工智能”重新包装的服务构建包装器。有了正确的数据和开发框架,现有的开源人工智能模型和工具可以针对几乎任何现实场景进行定制,从客户支持使用到供应链管理再到复杂的文档分析。

开源模型为组织提供了快速开发强大的定制人工智能模型的机会——根据其专有数据进行训练并根据其特定需求进行微调,而无需昂贵的基础设施投资。这在法律、医疗保健或金融等领域尤其重要,这些领域的基础模型在预训练中可能无法学习高度专业化的词汇和概念。

法律、金融和医疗保健也是可以从足够小、可以在普通硬件上本地运行的模型中受益的行业的主要例子。将人工智能训练、推理和检索增强生成 (RAG)保持在本地,可以避免专有数据或敏感个人信息被用于训练闭源模型或以其他方式通过第三方之手的风险。使用 RAG 访问相关信息,而不是将所有知识直接存储在 LLM 本身中,有助于减小模型大小,进一步提高速度并降低成本。

随着 2024 年模型竞争环境继续趋于公平,竞争优势将越来越多地由能够实现行业最佳微调的专有数据管道驱动。

更强大的虚拟代理

凭借更复杂、更高效的工具和一年的市场反馈,企业已准备好扩展以下应用场景:虚拟代理不仅仅是简单的客户体验聊天机器人

随着人工智能系统加速并融入新的信息流和格式,它们不仅扩展了通信和指令遵循的可能性,还扩展了任务自动化的可能性。“2023 年是能够与人工智能聊天的一年。多家公司都推出了一些东西,但互动总是你输入一些东西,它也会输入一些东西,”斯坦福大学的诺维格说。“到 2024 年,我们将看到代理商有能力为您完成工作。进行预订、计划旅行、连接其他服务。”

尤其是多模式人工智能,显着增加了与虚拟代理无缝交互的机会。例如,用户可以将摄像头对准打开的冰箱并请求可以使用可用原料制作的食谱,而不是简单地向机器人询问食谱。Be My Eyes 是一款移动应用程序,可将盲人和低视力人士与志愿者联系起来,帮助他们快速完成任务。该应用程序正在试用人工智能工具,帮助用户通过多模式人工智能直接与周围环境互动,而无需等待人类志愿者。

探索 IBM watsonx™ Assistant:市场领先的对话式 AI,与为您的业务提供支持的工具无缝集成 →

监管、版权和人工智能道德问题

多模式能力的提升和进入门槛的降低也为滥用行为打开了新的大门:深度伪造、隐私问题、偏见的持续存在,甚至逃避验证码保护措施对于不良行为者来说可能变得越来越容易。2024 年 1 月,一波露骨的名人深度造假浪潮席卷了社交媒体;2023 年 5 月的研究表明,与 2022 年同期相比,在线发布的语音 Deepfake 数量是 8 倍。[6]

监管环境的模糊性可能会在中短期内减缓采用速度,或者至少会减缓更积极的实施速度。对新兴技术或实践的任何重大、不可逆转的投资都存在固有风险,这些投资或实践可能需要在未来几年新立法或不断变化的政治阻力下进行重大重组,甚至变得非法。

2023年12月,欧盟(EU)就《人工智能法案》达成临时协议。除其他措施外,它还禁止不加区别地抓取图像以创建面部识别数据库、可能存在歧视性偏见的生物识别分类系统、“社会评分”系统以及使用人工智能进行社会或经济操纵。它还试图定义一类“高风险”人工智能系统,这些系统有可能威胁安全、基本权利或法治,并将受到额外的监督。同样,它为所谓的“通用人工智能(GPAI)”系统(基础模型)设定了透明度要求,包括技术文档和系统对抗性测试。

不过,虽然米斯特拉尔等一些关键参与者位于欧盟,但大多数突破性的人工智能发展都发生在美国,美国私营部门的人工智能实质性立法将需要国会采取行动——这在选举年可能不太可能。10月30日,拜登政府发布了一项全面的行政命令,详细列出了联邦机构使用人工智能技术的150项要求;几个月前,政府获得了著名人工智能开发商的自愿承诺,遵守某些信任和安全的护栏。值得注意的是,加利福尼亚州和科罗拉多州都在积极推行自己的关于人工智能方面个人数据隐私权的立法。

中国更加积极地采取正式的人工智能限制措施,禁止社交媒体上的推荐算法进行价格歧视,并要求对人工智能生成的内容进行明确的标签。关于生成式人工智能的未来法规试图要求用于训练法学硕士的训练数据以及模型随后生成的内容必须“真实且准确”,专家们已采取这些措施来审查法学硕士的输出。

与此同时,受版权保护的材料在用于内容生成的人工智能模型(从语言模型到图像生成器和视频模型)的训练中的作用仍然是一个备受争议的问题。《纽约时报》针对 OpenAI提起的高调诉讼的结果可能会严重影响人工智能立法的轨迹。GlazeNightshade等对抗性工具(均由芝加哥大学开发)的出现可能会成为创作者和模型开发人员之间的某种军备竞赛。

 了解 IBM® watsonx.governance™ 如何加速负责任、透明且可解释的 AI 工作流程 →

影子人工智能(以及企业人工智能政策)

对于企业而言,这种日益增加的法律、监管、经济或声誉后果的可能性因生成式人工智能工具的流行和易于使用而变得更加复杂。组织不仅必须围绕生成人工智能制定谨慎、连贯且清晰的企业政策,而且还要警惕影子人工智能:员工在工作场所“非官方”个人使用人工智能。

影子人工智能也被称为“影子IT”或“BYOAI”,当不耐烦的员工寻求快速解决方案(或者只是想比谨慎的公司政策允许的更快地探索新技术)在工作场所实施生成式人工智能而不经过IT部门批准或监督时,影子人工智能就会出现。许多面向消费者的服务(其中一些是免费的)甚至允许非技术人员即兴使用生成式人工智能工具。安永会计师事务所的一项研究显示,90% 的受访者表示他们在工作中使用人工智能。[7]

这种进取精神在真空中可能是伟大的,但热切的员工可能缺乏有关安全、隐私或合规性的相关信息或观点。这可能会让企业面临很大的风险。例如,员工可能会在不知不觉中将商业秘密提供给面向公众的人工智能模型,该模型会不断根据用户输入进行训练,或者使用受版权保护的材料来训练内容生成的专有模型,并使公司面临法律诉讼。

与许多正在进行的发展一样,这凸显了生成式人工智能的危险几乎与它的能力呈线性增长。拥有权利的同时也被赋予了重大的责任。

向前进

当我们经历人工智能的关键一年时,理解和适应新兴趋势对于最大限度地发挥潜力、最大限度地降低风险和负责任地扩大生成式人工智能的采用至关重要。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/668068
推荐阅读
相关标签
  

闽ICP备14008679号