赞
踩
在 2024 年全球开发者大会上,我们推出了 Apple Intelligence,这是一个深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中的个人智能系统。
Apple Intelligence 由多个高度专业化的生成模型组成,可以针对用户的日常任务进行专门设计,并能够根据当前活动动态调整自身。Apple Intelligence 中的基础模型已经针对诸如撰写和修改文本、优先级排序和总结通知、为与家人和朋友的对话创造有趣的图像,以及跨应用程序简化交互等用户体验进行了微调。
在以下概述中,我们将详细介绍其中两个模型 - 一个拥有约 30 亿参数的本地设备语言模型,以及一个更大的基于服务器的语言模型(通过私有云计算提供,并在苹果硅服务器上运行) - 它们是如何被构建和调整以高效、准确和负责任地执行专门的任务的。这两个基础模型是苹果公司创建的一个更大的生成模型家族的一部分,包括一个用于在 Xcode 中构建智能的编码模型,以及一个帮助用户在消息应用程序中直观地表达自己的扩散模型。我们期待尽快分享更多关于这个更广泛模型集的信息。
Apple Intelligence 在每个步骤都以我们的核心价值观为设计,并建立在突破性的隐私创新之上。
此外,我们制定了一套负责任的 AI 原则,以指导我们如何开发 AI 工具以及支撑它们的模型:
这些原则贯穿于支持 Apple Intelligence 的架构、将功能和工具与专门的模型连接,以及扫描输入和输出以为每个功能提供所需的信息以负责任地运行。
我们的基础模型是在苹果公司在 2023 年发布的开源项目 AXLearn 框架上训练的。它建立在 JAX 和 XLA 之上,允许我们在各种训练硬件和云平台(包括 TPU 和云端及本地 GPU)上高效和可扩展地训练模型。我们使用了数据并行、张量并行、序列并行和完全分片数据并行(FSDP)的组合,沿着数据、模型和序列长度等多个维度扩展训练。
我们在经过许可的数据上训练我们的基础模型,包括为增强特定功能而选择的数据,以及我们的网络爬虫 AppleBot 收集的公开数据。网站发布者可以选择退出将其网络内容用于 Apple Intelligence 训练。
我们从不在训练基础模型时使用用户的私人个人数据或用户交互,并且我们会应用过滤器来删除公开在互联网上的个人身份信息,如社会保险号和信用卡号。我们还过滤掉了脏话和其他低质量内容,以防止其进入训练语料库。除了过滤,我们还执行数据提取、重复数据删除和基于模型的分类器应用,以识别高质量文档。
我们发现数据质量对模型成功至关重要,因此我们在训练管道中采用了混合数据策略,包括人工标注和合成数据,并进行了彻底的数据策展和过滤程序。我们在后训练中开发了两种新颖的算法:(1)带有教师委员会的拒绝采样微调算法,(2)带有镜像下降策略优化和留一出优势估计器的来自人类反馈的强化学习(RLHF)算法。我们发现这两种算法都大大提高了模型的指令跟随质量。
除了确保我们的生成模型高度专业化,我们还使用了一系列创新技术来优化它们在本地设备和私有云上的速度和效率。我们对首个令牌和扩展令牌推理性能都进行了广泛的优化。
本地设备和服务器模型都使用分组查询注意力机制。我们使用共享的输入和输出词汇嵌入表来减少内存需求和推理成本。这些共享的嵌入张量是无重复映射的。本地设备模型使用 49K 的词汇表大小,而服务器模型使用 100K 的词汇表大小,其中包括额外的语言和技术令牌。
对于本地设备推理,我们使用低位调色板化,这是一种关键的优化技术,可以满足必要的内存、功率和性能要求。为了保持模型质量,我们开发了一个新的框架,使用 LoRA 适配器采用混合 2 位和 4 位的配置策略 - 平均每个权重 3.5 位 - 来实现与未压缩模型相同的准确性。
此外,我们使用了一个交互式模型延迟和功耗分析工具 Talaria,以更好地指导每个操作的比特率选择。我们还利用了激活量化和嵌入量化,并开发了一种方法,在神经引擎上实现高效的键值(KV)缓存更新。
通过这一系列优化,在 iPhone 15 Pro 上,我们能够达到每个提示令牌约 0.6 毫秒的首个令牌延迟,以及每秒 30 个令牌的生成速率。值得注意的是,这种性能是在应用令牌推测技术之前就达到的,从中我们看到了对令牌生成速率的进一步提升。
我们的基础模型针对用户的日常活动进行了微调,并且能够动态地为手头的任务专门化自己。我们利用适配器,这些是可插入预训练模型各层的小型神经网络模块,来为特定任务微调我们的模型。对于我们的模型,我们调整了注意力矩阵、注意力投影矩阵以及变换架构中合适的解码层中的逐点前馈网络的全连接层。
通过只微调适配器层,基础预训练模型的原始参数保持不变,保留了模型的一般知识,同时调整适配器层以支持特定任务。
我们使用 16 位来表示适配器参数的值,对于约 30 亿参数的本地设备模型,rank 16 的适配器参数通常需要数十兆字节。适配器模型可以动态加载、临时缓存在内存中并交换 - 这使我们的基础模型能够根据手头的任务即时专门化自己,同时有效管理内存并保证操作系统的响应性。
为了促进适配器的训练,我们创建了一个高效的基础设施,允许我们在基础模型或训练数据更新时快速重新训练、测试和部署适配器。适配器参数使用优化部分介绍的精度恢复适配器进行初始化。
我们的重点是交付可以让用户在苹果产品上进行交流、工作、自我表达和完成任务的生成模型。在对我们的模型进行基准测试时,我们关注于人工评估,因为我们发现这些结果与我们产品中的用户体验高度相关。我们对特定功能的适配器和基础模型都进行了性能评估。
为了说明我们的方法,我们来看看我们如何评估我们的摘要适配器。由于电子邮件和通知摘要的产品需求在细微但重要的方面有所不同,我们在调色板化模型的基础上微调了精度恢复低秩(LoRA)适配器,以满足这些特定需求。我们的训练数据基于由更大的服务器模型生成的合成摘要,经过拒绝采样策略过滤,只保留高质量的摘要。
为了评估特定于产品的摘要,我们使用了 750 个经过精心采样的响应。这些评估数据集强调了一组多样的输入,我们的产品功能很可能在生产中面临,包括不同内容类型和长度的单个和堆叠文档的混合。作为产品功能,评估代表实际使用情况的数据集很重要。我们发现,我们的带有适配器的模型生成的摘要优于可比模型。
作为负责任开发的一部分,我们确定并评估了摘要固有的特定风险。例如,摘要有时会以不理想的方式删除重要的细节或其他细节。然而,我们发现摘要适配器在 99% 以上的有针对性的对抗性示例中没有放大敏感内容。我们将继续进行对抗性探测,以识别未知的危害,并扩大评估范围以指导进一步的改进。
除了评估由基础模型和适配器驱动的特定功能性能,我们还评估了本地设备和基于服务器的模型的总体功能。我们利用一组全面的真实世界提示来测试总体模型功能。这些提示在不同难度级别上都很多样化,涵盖了诸如头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全性、总结和写作等主要类别。
我们将我们的模型与开源模型(Phi-3、Gemma、Mistral、DBRX)以及同等规模的商业模型(GPT-3.5-Turbo、GPT-4-Turbo)1进行了比较。我们发现,我们的模型被人工评分员更喜欢,优于大多数可比的竞争对手模型。在这个基准测试中,我们的本地设备模型(约 30 亿参数)优于包括 Phi-3-mini、Mistral-7B 和 Gemma-7B 在内的更大型号。我们的服务器模型与 DBRX-Instruct、Mixtral-8x22B 和 GPT-3.5-Turbo 相比也很高效。
我们使用了一组多样的对抗性提示来测试模型在有害内容、敏感话题和事实性方面的性能。我们根据人工评分员在此评估集上的评分,测量每个模型的违规率,较低的数字是可取的。本地设备和服务器模型在面对对抗性提示时都很强大,违规率低于开源和商业模型。
我们的模型在这些提示中被人类评分员评为比竞争对手模型更安全和有帮助。然而,考虑到大型语言模型的广泛功能,我们了解我们的安全基准测试存在局限性。我们正积极与内部和外部团队进行手动和自动的"红队"演练,以继续评估我们模型的安全性。
为了进一步评估我们的模型,我们使用指令跟随评估(IFEval)基准来比较它们与同等规模的模型在指令跟随能力方面的表现。结果表明,我们的本地设备和服务器模型都比开源和商业同类模型更好地遵循详细指令。
我们评估了我们模型在内部总结和作文基准上的写作能力,其中包含各种写作指令。这些结果不涉及我们在图3中看到的特定于功能的总结适配器,我们也没有专门针对作文的适配器。
在WWDC24上推出的苹果基础模型和适配器是Apple Intelligence的基础,这是一个深度集成到iPhone、iPad和Mac中的个人智能系统,提供了语言、图像、行动和个人背景等方面的强大功能。我们的模型是为了帮助用户在苹果产品上完成日常活动而创建的,并在每个阶段都遵循苹果的核心价值观进行负责任的开发。我们期待尽快分享更多关于我们更广泛的生成模型家族(包括语言、扩散和编码模型)的信息。
脚注
[1] 我们对比了以下模型版本:gpt-3.5-turbo-0125、gpt-4-0125-preview、Phi-3-mini-4k-instruct、Mistral-7B-Instruct-v0.2、Mixtral-8x22B-Instruct-v0.1、Gemma-1.1-2B和Gemma-1.1-7B。开源和苹果模型都是以bfloat16精度进行评估的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。