AIGC专题报告：通过NPU和异构计算开启终端侧生成式AI_cpu-npu异构融合架构

作者：IT小白 | 2024-06-06 08:46:40

踩

cpu-npu异构融合架构

今天分享的是AIGC系列深度研究报告：《AIGC专题：通过NPU和异构计算开启终端侧生成式AI》。

（报告出品方：Qualcomm）

摘要

生成式 AI 变革已经到来。随着生成式AI 用例需求在有着多样化要求和计算需求的垂直领域不断增加，我们显然需要专为 AI定制设计的全新计算架构。这首先需要一个面向生成式 AI 全新设计的神经网络处理器(NPU)，同时要利用异构处理器组合，比如中央处理器(CPU)和图形处理器(GPU)。通过结合 NPU 使用合适的处理器，异构计算能够实现最佳应用性能、能效和电池续航，赋能全新增强的生成式 AI体验。

NPU 专为实现低功耗加速AI推理而全新打造，并随着新 AI1用例、模型和需求的发展不断演进。

优秀的 NPU 设计能够提供正确的设计选择，与AI行业方向保持高度一致。

高通正在助力让智能计算无处不在。业界领先的高通 Hexagon"NPU 面向以低功耗实现持续稳定的高性能A1推理而设计。高通 NPU的差异化优势在于系统级解决方案、定制设计和快速创新。通过定制设计 NPU 以及控制指令集架构(ISA)，高通能够快速进行设计演进和扩展，以解决瓶颈问题并优化性能。Hexagon NPU是高通业界领先的异构计算架构--高通A1 引擎中的关键处理器，高通A1引擎还包括高通 Adreno” GPU、高通Kryo”或高通 Oryon”CPU、高通传感器中枢和内存子系统。这些处理器为实现协同工作而设计，能够在终端侧快速且高效地运行A应用。我们在 AI基准测试和实际生成式 AI应用方面的行业领先性能就是例证。

我们还专注于在全球搭载高通和骁龙平台的数十亿终端设备上实现便捷开发和部署，赋能开发者。利用高通AI软件栈(QualcommAlStack)，开发者可在高通硬件上创建、优化和部署AI应用，一次编写即可实现在不同产品和细分领域采用高通芯片组解决方案进行部署。高通技术公司正在赋能终端侧生成式A 的规模化扩展。

处理器集成于 SoC 中的诸多优势

在不断增长的用户需求、全新应用和终端品类以及技术进步的驱动下，计算架构正在不断演进。最初，中央处理器(CPU)就能够完成大部分处理，但随着计算需求增长，对全新处理器和加速器的需求出现。例如，早期智能手机系统由 CPU和环绕 CPU分布的分立芯片组成，用于2D图形、音频、图像信号处理、蜂窝调制解调器和 GPS等处理。随着时间推移，这些芯片的功能已经集成到称为系统级芯片(SoC)的单个芯片体(DIE)中。例如，现代智能手机、PC和汽车 SoC 已集成多种处理器，如中央处理器(CPU)、图形处理器(GPU)和神经网络处理器(NPU)。芯片设计上的这种集成具有诸多优势，包括改善峰值性能、能效、单位面积性能、芯片尺寸和成本。

例如，在智能手机或笔记本电脑内安装分立的GPU或NPU会占用更多电路板空间，需要使用更多能源，从而影响工业设计和电池尺寸。此外，输入/输出引脚间的数据传输也将增多，将导致性能降低、能耗增加，以及采用更大电路板带来的额外成本和更低的共享内存效率。对于智能手机、笔记本电脑和其他需要轻巧工业设计，具有严格功率和散热限制的便携式终端，集成更为必要。

生成式 AI需要多样化的处理器

谈到 AI，集成专用处理器并不新鲜。智能手机SoC自多年前就开始利用NPU改善日常用户体验，赋能出色影像和音频，以及增强的连接和安全。不同之处在于，生成式A1用例需求在有着多样化要求和计算需求的垂直领域不断增加。这些用例可分为三类：

按需型用例由用户触发，需要立即响应，包括照片/视频拍摄、图像生成/编辑、代码生成、录音转录/摘要和文本(电子邮件、文档等)创作/摘要。这包括用户用手机输入文字创作自定义图像、在 PC 上生成会议摘要，或在开车时用语音查询最近的加油站。

持续型用例运行时间较长，包括语音识别、游戏和视频的超级分辨率、视频通话的音频视频处理以及实时翻译。这包括用户在海外出差时使用手机作为实时对话翻译器，以及在 PC上玩游戏时逐帧运行超级分辨率。

泛在型用例在后台持续运行，包括始终开启的预测性 AI助手、基于情境感知的 AI 个性化和高级文本自动填充。例如手机可以根据用户的对话内容自动建议与同事的会议、PC端的学习辅导助手则能够根据用户的答题情况实时调整学习资料。

这些 AI用例面临两大共同的关键挑战。第一，在功耗和散热受限的终端上使用通用CPU 和GPU服务平台的不同需求，难以满足这些 AI用例严苛且多样化的计算需求。第二，这些AI用例在不断演进，在功能完全固定的硬件上部署这些用例不切实际。因此，支持处理多样性的异构计算架构能够发挥每个处理器的优势，例如以AI为中心定制设计的NPU，以及CPU和 GPU。每个处理器擅长不同的任务：CPU擅长顺序控制和即时性，GPU适合并行数据流处理，NPU擅长标量、向量和张量数学运算，可用于核心 A1工作负载。

CPU和 GPU 是通用处理器。它们为灵活性而设计，非常易于编程，“本职工作”是负责运行操作系统、游戏和其他应用等。而这些“本职工作”同时也会随时限制他们运行AI工作负载的可用容量。NPU专为 AI打造，AI就是它的“本职工作”。NPU降低部分易编程性以实现更高的峰值性能、能效和面积效率，从而运行机器学习所需的大量乘法、加法和其他运算。

NPU 入门

NPU 专为实现以低功耗加速 AI 推理而全新打造，并随着新AI 用例、模型和需求的发展不断演进。对整体SoC 系统设计、内存访问模式和其他处理器架构运行AI工作负载时的瓶颈进行的分析会深刻影响NPU设计。这些AI工作负载主要包括由标量、向量和张量数学组成的神经网络层计算，以及随后的非线性激活函数。

在 2015 年，早期的NPU 面向音频和语音AI用例而设计，这些用例基于简单卷积神经网络(CNN)并且主要需要标量和向量数学运算。从2016年开始，拍照和视频AI用例大受欢迎，出现了基于Transformer、循环神经网络(RNN)、长短期记忆网络(LSTM)和更高维度的卷积神经网络(CNN)等更复杂的全新模型。这些工作负载需要大量张量数学运算，因此NPU增加了张量加速器和卷积加速，让处理效率大幅提升。有了面向张量乘法的大共享内存配置和专用硬件，不仅能够显著提高性能，而且可以降低内存带宽占用和能耗。例如，一个NxN矩阵和另一个NxN矩阵相乘，需要读取2N个值并进行2NP次运算(单个乘法和加法)。在张量加速器中，每次内存访问的计算操作比率为 N:1，而对于标量和向量加速器，这一比率要小得多。

在 2023年，大语言模型(LLM)--比如 Lama 2-7B，和大视觉模型(LVM)--比如StableDiffusion 赋能的生成式AI 使得典型模型的大小提升超过了一个数量级。除计算需求之外，还需要重点考虑内存和系统设计，通过减少内存数据传输以提高性能和能效。未来预计将会出现对更大规模模型和多模态模型的需求。

随着AI持续快速演进，必须在性能、功耗、效率、可编程性和面积之间进行权衡取舍。一个专用的定制化设计 NPU 能够做出正确的选择，与AI行业方向保持高度一致。

高通 NPU：以低功耗实现持久稳定的高性能 AI

经过多年研发，高通HexagonNPU不断演进，能够满足快速变化的AI需求。2007年，首款Hexagon DSP 在骁龙·平台上正式亮相——DSP 控制和标量架构是高通未来多代 NPU 的基础。2015 年，骁龙 820 处理器正式推出，集成首个高通AI引擎，支持成像、音频和传感器运算。2018 年，高通在骁龙855中为Hexagon NPU增加了 Hexagon 张量加速器。2019年，高通在骁龙 865 上扩展了终端侧AI用例，包括 AI 成像、AI视频、AI语音和始终在线的感知功能。

2020 年，高通凭借 Hexagon NPU变革性的架构更新，实现了重要里程碑。我们融合标量、向量和张量加速器，带来了更佳性能和能效，同时还为加速器打造了专用大共享内存，让共享和迁移数据更加高效。融合 AI加速器架构为高通未来的 NPU 架构奠定了坚实基础。

2022年，第二代骁龙8中的HexagonNPU引入了众多重要技术提升。专用电源传输轨道能够根据工作负载动态适配电源供应。微切片推理利用HexagonNPU的标量加速能力，将神经网络分割成多个能够独立执行的微切片，消除了高达10 余层的内存占用，能够最大化利用HexagonNPU 中的标量、向量和张量加速器并降低功耗。本地4位整数(INT4)运算支持能够提升能效和内存带宽效率，同时将INT4层和神经网络的张量加速吞吐量提高一倍。Transformer网络加速大幅加快了应用于生成式 AI的多头注意力机制的推理速度，在使用 MobileBERT模型的特定用例中能带来高达4.35 倍的惊人 AI性能提升。其他特殊硬件包括改进的分组卷积、激活函数加速和张量加速器性能。

第三代骁龙8中的 Hexagon NPU是高通面向生成式 AI 最新、也是目前最好的设计，为持续 AI推理带来98%性能提升和 40%能效提升。它包括了跨整个NPU的微架构升级。微切片推理进一步升级，以支持更高效的生成式AI处理，并降低内存带宽占用。此外，Hexagon张量加速器增加了独立的电源传输轨道，让需要不同标量、向量和张量处理规模的AI模型能够实现最高性能和效率。大共享内存的带宽也增加了一倍。基于以上提升和INT4 硬件加速，Hexagon NPU成为面向终端侧生成式 AI大模型推理的领先处理器。

高通 NPU 的差异化优势在于系统级解决方案、定制设计和快速创新。高通的系统级解决方案考量每个处理器的架构、SoC 系统架构和软件基础设施，以打造最佳A1解决方案。要在增加或修改硬件方面做出恰当的权衡和决策，需要发现当前和潜在的瓶颈。通过跨应用、神经网络模型、算法、软件和硬件的全栈AI研究与优化，高通能够做到这一点。由于能够定制设计 NPU 并控制指令集架构(ISA)，高通架构师能够快速进行设计演进和扩展以解决瓶颈问题。

这一迭代改进和反馈循环，使我们能够基于最新神经网络架构持续快速增强高通NPU和高通 AI软件栈。基于高通的自主 AI研究以及与广大 AI社区的合作，我们与AI模型的发展保持同步。高通具有开展基础性 AI 研究以支持全栈终端侧AI 开发的独特能力，可赋能产品快速上市，并围绕终端侧生成式 AI等关键应用优化 NPU部署。

相应地，高通 NPU历经多代演进，利用大量技术成果消除瓶颈。例如，第三代骁龙8的诸多NPU架构升级能够帮助加速生成式A大模型。内存带宽是大语言模型token生成的瓶颈，这意味着其性能表现更受限于内存带宽而非处理能力。因此，我们专注于提高内存带宽效率。第三代骁龙8还支持业界最快的内存配置之一：4.8GHzLPDDR5x，支持77GB/s带宽，能够满足生成式 AI 用例日益增长的内存需求。

从 DSP架构入手打造NPU是正确的选择，可以改善可编程性，并能够紧密控制用于AI处理的标量、向量和张量运算。高通优化标量、向量和张量加速的设计方案结合本地共享大内存、专用供电系统和其他硬件加速，让我们的解决方案独树一帜。高通 NPU 能够模仿最主流模型的神经网络层和运算，比如卷积、全连接层、Transformer 以及主流激活函数，以低功耗实现持续稳定的高性能表现。

报告来源/公众号：【海选智库】
本文仅供参考，不代表我们的任何建议。海选智库整理分享的资料仅推荐阅读，如需使用请参阅报告原文。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/680302