赞
踩
chiplet技术顺应了芯片生产与集成技术发展的趋势,也开拓了半导体技术发展的新的发展方向,将创造出一种新的芯片设计和商业模式
(1)低半径高带宽的物理连线(bandwidth / memory wall)
封装技术的进步给高速总线带来带宽密度的提升、摩尔定律(工艺进步推动芯片性能的提升)
(2)数据搬运开销(power wall)
(3)更高晶体管集成度 (dark silicon)
(4)商业模式的进步
降低成本(设计模块化、异构集成)
人工智能技术是目前最火热的技术,也是半导体行业最炙手可热的新市场,作为其中的代表,大模型技术目前是影响力最大的技术。
其核心特点就是通过使用规模巨大(参数可达百亿到千亿数量级)的模型,并且在海量的数据上训练,来实现人工智能能力的突破,并且赋能新的应用。2022年下半年兴起的Chatgpt就是其典型的应用。而庞大的模型和海量的数据对运行平台,也就是计算芯片提出了新的要求,在摩尔定律逐渐失效的今天,通过多die互联来增加晶体管数量成为提升算力的选择。
面对大模型的训练和部署的强大算力需求,数据互联变得越来越重要。原因如下:
1)成本优势
2)die的可复用性,敏捷开发优势
chiplet技术虽然不是一个新的技术,但是在即将大规模应用的当下,仍然有很多工程技术问题要解决。
芯粒互连
芯片封装
先进封装是否足够可靠:
供电和散热技术
集成规模的增大导致整个芯片功率的增大和供电难,散热成本和散热组件在整个计算系统中的体积占比高
测试验证
作为封装内的互联总线,无法像外封装一样通过测量仪器对芯片引出来的引脚进行信号质量检测
chiplets产品实际上是基于原来芯片设计生产的基础上的后续工艺,在某个小芯粒流片后,将其紧密布局在中介层上/中,继而将整个大芯片进行封装。
这其中带来几个方面的问题:
即拆解的原则是什么?需要考虑应用场景、芯片制程、芯粒间的物理设计、封装工艺吗?
使用什么样的拓扑互连?互连的接口设计是什么?
芯粒在中介层上如何布局和布线?多芯粒如何进行供电设计?
如何选择中介层的材料?
芯片的散热问题?
芯片的翘曲问题?
集成芯片如何测试?要分成哪些阶段进行测试?
事务级仿真:如何通过抽象模型进行功能仿真?
RTL级仿真:商用EDA工具如何进行多芯粒的联合仿真?
如图是《集成芯片和芯粒技术白皮书》中的十大技术问题
李应选. Chiplet的现状和需要解决的问题[J]. 微电子学与计算机, 2022, 39(5): 1-9. doi: 10.19304/J.ISSN1000-7180.2022.0036
开发了EPYC系列、MI250加速器等产片的chiplet架构设计,研发内容主要包括AMD Infinity Fabric一致性维护架构
团队成员:Gabriel H. Loh
从IEEE网站的蛛丝马迹来看,团队的每篇论文都有同一个人,所以推测研究团队带头人是Zhengya Zhang。团队的主要研究方向应该是深度学习、AI算法的硬件加速,chiplet的异构、同构集成是其解决方案之一。
该团队主要与Intel合作,将Intel的stratix10 die和自己做的MCU或加速器die系统集成,并通过Intel的EMIB进行封装;die接口协议物理层采用开源项目,协议层、适配层自行设计。
团队斩获了ISSCC、VLSI、JSSC、ECTC等多篇顶刊
J. -F. Zhang and Z. Zhang, “Machine Learning Hardware Design for Efficiency, Flexibility, and Scalability [Feature],” in IEEE Circuits and Systems Magazine, vol. 23, no. 3, pp. 35-53, thirdquarter 2023, doi: 10.1109/MCAS.2023.3302390.
W. Tang et al., “Arvon: A Heterogeneous SiP Integrating a 14nm FPGA and Two 22nm 1.8TFLOPS/W DSPs with 1.7Tbps/mm2 AIB 2.0 Interface to Provide Versatile Workload Acceleration,” 2023 IEEE Symposium on VLSI Technology and Circuits (VLSI Technology and Circuits), Kyoto, Japan, 2023, pp. 1-2, doi: 10.23919/VLSITechnologyandCir57934.2023.10185388.
复旦大学芯片与系统前沿技术研究院刘明院士团队提出的多芯粒的存算一体集成芯片——COMB-MCM(Computing-on-memory boundary – Multi-Chiplet-Module),设计了存算一体架构通过将数据存储单元和并行计算单元合为一体,以大幅减少片内、片间的数据通信和搬移,达到降低功耗、提高系统算力的效果。
团队成员:
论文通讯作者、芯片与系统前沿技术研究院青年副研究员陈迟晓
COMB-MCM分别采用65nm和28nm工艺制造,65nm工艺下通过2.5D封装的MCM系统验证了方案的可行性,并在28nm工艺下实现了更好的性能。
High Performance Chiplet and Interconnect Architectures,2022年6月19日,第一届会议(连同第49界ISCA会议)于美国纽约举行。
参考链接:2022年第一届
开放计算项目(OCP, open compute project,由Facebook联合英特尔、Rackspace、高盛和Arista Networks在2011年联合发起的开源硬件组织,其使命是为实现可扩展的计算,提供高效的服务器,存储和数据中心硬件设计,以减少数据中心的环境影响)下的工作组。该工作组是一个全行业范围内的合作机构,致力于开发标准,以推动独立供应商提供的小芯片之间的互操作性,一方面帮助研究者了解关于数据密集型应用和ML/HPC驱动的chiplet设计架构的最新进展,另一方面为学术界和工业界的研究者提供先进技术的分享平台。
主题包括:
CDX于发布了白皮书
ARM的Neverse N2核
图片来源于Hotchips 35。
单die面积:~198 mm2
Ventana采用对BoW进行了定制化的设计形成了自己的D2D IP
16 compute die + 8 cache die + 2 base die + 8 HBM Die +2 IO die
采用EMIB+Foveros封装
“ponte vecchio这颗芯片真的不简单,他是intel前进真正的path finding”
来自海思鲲鹏处理器首席架构师夏晶1。
APU:Design and Analysis of an APU for Exascale Computing
参考链接:
AMD CPU微架构分析
从AMD CPU IO Die演进看高速接口IP发展趋势
[SIMBA]
MCM-GPU
2 compute Die + 8 LPDDR5 die
InFO-L封装
UltraFusion是基于台积电第五代CoWoS Chiplet技术的互连架构
1 compute die + 2 IO die + 4 DDR die + 2 IO die
substrate标准封装
海思2016年即确定了鲲鹏920采用chiplet架构1。
世界上第一款3D Wafer-on-Wafer处理器——Bow IPU,Bow IPU是新一代Bow Pod人工智能计算机系统的核心。
Graphcore全新Bow Pod系列:令人“WoW”的巨大功率和效率提升
芯粒的拆解需要形成一套方法论,意味着要在monolithic die的基础上拆分小芯片,设计Multi-Die计算体系结构,并通过抽象的描述进行仿真,从而验证该方法论和拆解模型的有效性,评估该芯粒模型的性能。
计算互连网络始终是一个繁杂的课题,Chiplet的出现是互联网络又增加了一个层次,本章主要讨论NoC(Network of Chip)和NoP(Network of package)。NoC是传统的Die内模块的片上互联网络,NoP指封装内、Die间的网络,而Die间的互联相对NoC有了新的挑战,二者的主要区别包括:
1)NoP的Die互联存在pin管脚限制,特定工艺单位面积的bump数有限
2)NoP中Die间通信在RDL/中阶层/硅桥中布线,NoC中节点通信在Die的金属层布线
3)NoP的节点间通信电路比NoC中长,导致PI/SI更差,要求接口进行额外的链路层/物理层设计
4)NoP设计除了考虑NoC中有无死锁,也要考虑Die间是否存在死锁 某些异质Die封装时的特殊需求,比如距离、布局等
如上所说,仅仅构建高效的互联网络是不够的,还需要高带宽、低延迟的高速接口总线作为互联通道。
高速接口技术就如同智慧大脑中的血管技术,为数据的传输提供保障,它的主要指标包括能效、功耗、带宽、时延,同时具有更复杂的通信协议需求。
对于技术指标,一方面随着chiplet数量越来越多,系统越来越复杂,势必chiplet之间的互连距离会越来越长,这也就意味着互联线上的衰减会更大,会需要更强的收发机;另一方面,随着大算力场景对于chiplet间数据通信带宽的要求提升,每个chiplet上的数据互联模块数量也会增加,这就意味着单个数据互联模块的功耗不能过大以满足总功耗的限制。另外,随着数据互联需求的快速提升,单个数据互联模块的芯片面积又不能太大,这样才能满足chiplet上总互联接口的需求。因此,chiplet数据互联电路主要有两大指标,一个是能效比(J/bit),用来衡量数据率与功耗之间的关系;另一个指标则是数据率密度(bit/s/mm),用来衡量数据率与芯片面积之间的关系。
对于通信协议,主要面向chiplet之间协同工作的方式,例如处理器系统中,如何确保chiplet之间缓存一致性的问题。
传统的serdes架构,利用差分对信号进行高速传输,比较适合普通的基板封装(organic substrate)。
根据发射端与接收端之间的距离,互连的 SerDes 技术可细分为长距 (LR) SerDes、 中 距 (MR) SerDes、 短距 (VSR)SerDes、极短 (XSR) SerDes 和超短距 (USR) SerDes。
其中,LR/MR/VSR SerDes 的相关技术已经较为成熟,应用比较广泛,封装成本也较低,但缺点是功耗和信号的延迟比较大。
XSR 的光网络论坛-通用电气接口规范 (OIF-CEI 4.0)是专门针对 Die 之间互连的,并向着 100 Gbit/s 的方向发展。相较于 LR Serdes,XSR Serdes 具有功耗低、面积小、通信协议灵活的特点 。
USR SerDes 通过信号增强可进一步降低SerDes 的功耗。封装产品可以根据不同项目产品的需求选择合适的 SerDes 类型,以实现成本与带宽的平衡。
在串行互连的基础上,各大公司技术联盟提出了基于并行数据传输的物理层互连技术,这种技术采用单端信号传输,forward clock,适合线距较短的先进封装使用。AIB、HBM、Open-HBI、LIpincon、BOW、UCIe属于这种接口。
Non-Return-to-Zero,即不归零编码。使用两个信号电平来表示数字逻辑信号0/1信息的调制技术,负电平代表0,正电平代表1,波特率和比特率相同。不归零是指每传输完1比特,信号无需返回到零电平,这样可节约数据带宽。
4-Level Pulse Amplitude Modulation,4电平脉冲幅度调制,使用四个信号电平来进行信号传输。每个符号周期代表2位逻辑信息。波形有四种电平(1000/0100/0010/0001),分别代表00、01、10、11,即波特率是比特率的一半。
相同码率(比特率)下,PAM4的波特率是NRZ的一半,因此PAM4信令中传输相同数量的符号造成的信号损耗大大降低。
PAM4 的眼高是 NRZ 的 1/3,导致 PAM4 将 SNR(信噪比)提高 -9.54 dB(链路预算惩罚),这会影响信号质量并引入额外的高速信号的限制,垂直眼图开度小也导致PAM4的BER更高,但是前向纠错(FEC)可以改善该问题。
多个chiplet之间需要通过数据传输协议进行数据传输,而该协议可分为一致性协议和非一致性协议。
维护一致性的代价和设计的物理面积成正比,因为面积越大,延迟也会越大。常用的一致性数据传输协议有CCIX、CXL、Tilelink、OpenCAPI等。
非一致性协议相比一致性协议,延迟更容易控制,例如Tensorflow就是一款使用非一致性数据传输的加速器。
非一致性数据传输可以通过两种方式实现:
一种是将die内互联向die外互联扩展,但大多数die内互联都使用同步总线,向die外扩展不是很容易;
另一种是使用在die外互联中使用非一致性数据传输协议,如PCIe。
Netronome已经开发出一款轻量级的可变数据结构和协议用于chiplet间的数据传输。
如图(图片来源于奎芯科技直播课)是已有的一些chiplet标准协议,当前这些技术针对物理层有明确的规范要求,对协议层定义较模糊,需要定制化地对现有协议作配置
UCIe 是 Intel 主推的一个开放的、多协议兼容的、可满足不同客户对定制封装内多 Die 互连需求的技术标准。UCIe 可同时支持 2.5D、3D 封装技术,例如 MCM、晶圆级封装 (CoWoS)、EMIB 等。
协议解读参考链接:
参考链接:UCIe技术——概览索引
intel在2019开源的die-to-die互联协议,后移交给chipalliance维护
参考链接:github——aib-phy-hardware
开源代码说明
Chiplet模块的DFT、验证、可靠性与DFM,封装设计仿真
Synopsys有最新的3DIC Compiler,这也是行业内第一个完整的Chiplet设计平台,具备360°视角的3D视图,支持2.5D/3D封装设计和实现的自动化和可视化,同时面向供电、发热和噪声进行优化。
先进封装是 Chiplet 的基石,它能使每个 Chiplet 小芯片连接在一起,从而构成整个系统级的芯片。在芯片尺寸不断增大、架构变得复杂的情况下,封装结构由原先的二维发展至三维。按封装介质材料和封装工艺划分,Chiplet 的实现方式主要包括以下几种:MCM、2.5D 封装、3D 封装。
国内封装产业在2.5D先进封装技术等方面亦取得了一定成果,但作为关键材料的ABF基板尚需依赖海外供应链,国内基板层数方面相对落后,在系统级较为重视的连接密度、线宽线距、通孔过孔盲孔工艺和毛刺控制方面与一线国际水平相比还有差距。
先进封装技术可参考:
芯片封装技术
MCM 封装是指通过引线键合、倒装芯片技术在有机基板上进行高密度连接的封装技术。
工艺较成熟,成本较低,一般用于 I/O 数目较少、对信号速率要求较低的情况
封装尺寸可以达到 110 mm×110 mm。但受限于基板加工工艺能力,目前封装基板上的走线宽度/间距一般为 9 μm/12 μm。为保证铜走线的工艺控制,在设计时信号走线的线宽大多在 12 μm 以上,布线密度比 2.5D 封装低。
CPO是将光芯片、电芯片等放置在一起进行3D封装的技术,该技术是长距离光通信数据互联的主要演进方向。
在硅光技术中,波导器件、光栅和调制器等核心模块都可以集成在同一块芯片上,从而可以大大降低光互联模块的成本。
同时,随着数据中心中的光互联带宽的需求进一步提升,功耗需求进一步降低,硅光子技术搭配共封装光学(co-packaged optics,CPO)也会成为下一代光互联带宽和功耗优化的核心技术。
使用硅光子技术实现的光互联模块和使用传统CMOS技术实现的数字逻辑(例如光互联模块后接的网络模块)将会使用高级封装技术集成在同一个封装里——而在传统的实现中,光互联模块和其他CMOS芯片并不会集成在同一个封装里。
CPO是基于硅光技术之上的,因为传统的分立式光模块因为体积太大,无法使用共封装光技术和其他芯片集成到同一个封装里。
通过使用共封装光学技术,光互联模块和其他芯片之间的互联距离大大缩小,从而减小了光互联模块与电信号接口的信号传输衰减,而这对于超高带宽通信至关重要,因为在这些超高数据率的应用中,真正限制数据率的往往不是光信号,而是光信号在转换成电信号之后的信号衰减(即last-mile问题)。另一方面,通过减小信号衰减,光互联模块的整体功耗可以减小。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。