赞
踩
作为新的计算架构,存内计算(Computing In Memory,CIM)被认为是具有潜力的革命性技术。重点是将存储与计算融合,有效克服冯·诺依曼架构瓶颈,并结合后摩尔时代先进封装、新型存储器件等技术,实现计算能效的数量级提升。
存储介质是存内计算芯片重要的组成部分,基于不同存储介质的芯片具有不同特点,下面我们将讲述当前主流存储介质。
存储介质有不同的分类方式。从数据保存上分,存储介质主要分为两大类:易失性存储器(Volatile Memory,VM):电源开启时数据存在,电源关闭则数据消失,如SRAM、DRAM等;非易失性存储器(Non-Volatile Memory,NVM):存储的数据不会因为电源关闭而消失,如RRAM、PCM、MRAM、NOR Flash等。从成熟度上分,可以得到如下图表。
图 1 存算一体主流技术路线最新总览图
(来源:“未来芯片:算力塑造未来”论坛-中国移动通信有限公司研究院-存算一体助力AI大模型的思考与展望)
下面我们将从易失性存储器和非易失性存储器两个方面介绍存储介质。
当前市面上常用的两种易失性存储器为SRAM与DRAM。
(1)SRAM[1]
SRAM全称静态随机存储器(Static Random Access Memory),需要一直通电才能使用,是一种易失性存储器。Static(静态),是指这种存储器只要保持通电,里面储存的数据就可以长时间保持。
SRAM常用于CPU中的缓存,基本存储单元由晶体管搭建而成,常见有6晶体管(6T)、8晶体管(8T)结构,图2为6T SRAM结构。SRAM通过形成互锁结构的两个反相器来存储数据,在设备供电时保持存储数据不变,断电后存储数据丢失,呈现易失性。
图 2 6T SRAM结构[2]
SRAM读写速度快、无读写次数限制,且工艺成熟,器件一致性和稳定性较好,适用于数字存算一体。基于SRAM的全数字存内计算可以做到较高的计算精度,并且可以较快实现技术落地与量产。例如在2021年的ISSCC 16.4中,台积电提出一种基于6T SRAM的全数字存内计算宏,用于卷积神经网络中的乘累加运算[3]。但SRAM价格昂贵、多晶体管单元结构下存储密度较低、需要通电以保持数据,因此芯片面积、功耗较大,不适用于对成本和功耗敏感的场景。
SRAM工艺成熟,目前已经有多家企业基于SRAM研发存算一体芯片,企业情况如下表所示,需要注意的是,以下信息均源于企业的公开资料,由于作者能力有限,未罗列全基于SRAM做存算一体芯片的企业,列举的可能并非该企业的最新产品,而企业往往也只会公开产品发布时间点对其有利的部分数据,数据带有宣传性质,请酌情采信。
表1 基于SRAM的存算一体企业表格[4]
企业名称 | 国内外 | 场景 | 架构类型 | 主力产品 | 算力 | 其他 |
后摩智能 | 国内 | 边缘为主大算力 | 模拟存内计算 | 鸿途H30等智能驾驶芯片 | 256TOPS | 鸿途H30产品已向多家车厂送测 |
千芯科技 | 国内 | 云和边缘大算力 | 存内计算/存内逻辑 | 云计算卡 G40710E G41210E F11610E F12010 | >4000TOPS @INT8 (G40710E) | 北京,最先通过互联网大网内测,最早支持多实例(虚拟化)计算的存算一体架构 |
九天睿芯 | 国内 | 端侧小算力 | 模拟存内计算 | ADA200 ADA100 | 1⁓2TOPS | 基于类脑计算,以模数混和形式,实现感存算一体芯片的研发落地,量产销售 |
每刻深思 | 国内 | 端侧小算力 | 模拟存内计算 | MKS系列芯片 | 未公布 | 创新性地提出了基于模拟计算的近传感存算一体计算架构,MKS芯片低功耗,但是还未形成产品 |
苹芯科技 | 国内 | 端侧小算力 | 存内计算 | PIMCHIP-S200 PIMCHIP-S100 | 未公布 | 效率:27.38TOPS/W (PIMCHIP-S200) |
智芯科技 | 国内 | 边缘大算力 | 存内计算 | AT800 AT700 AT600 | >100TOPS (AT800) | 自主研发的核心技术-基于精度无损SRAM存内计算超低功耗神经网路处理器芯片 |
台积电 | 国外 | 存内计算 | 2021年提出一种基于SRAM的全数字存算一体芯片 | 未公布 | 效率:89TOPS/W 密度:16.3TOPS/mm2 | |
Graphcore | 国外 | 存内计算 | Bow IPU Mk1 IPU Mk2 IPU | 350TFLOPS (Bow IPU) |
(2)DRAM
DRAM全称动态随机存储器(Dynamic Random Access Memory),Dynamic(动态),是指DRAM存储的数据需要周期性更新,和SRAM相对。DRAM将每位数据存储在一个独立的电容中,电容会随着时间自然放电,需要定期刷新电荷,因此DRAM呈现易失性。
如图3所示,DRAM基本单元结构由一个晶体管和一个电容组成。电容是存储信息的关键,规定当电容存有电荷,单元存储信息“1”,反之,单元存储信息“0”。 打开晶体管后,通过在晶体管另一侧施加电压来存数据;通过电容是否放电来取数据[5]。
图 3 DRAM基本单元结构[6]
DRAM需要1个晶体管和1个电容来存储信息,而SRAM往往需要6个晶体管来存储。因此DRAM密度高,单位体积的容量较高因此成本较低。但DRAM需要周期性刷新电荷,所以访问速度较慢,耗电量较大。DRAM低速、高容量,主要应用于主存和内存等场景。此外,许多新技术逐渐产生,例如3D DRAM技术,是将存储单元堆叠至逻辑单元上方,以增加单位晶圆面积上的产量。
常见的非易失性存储器有RRAM、PCM、MRAM、FeFET、NOR Flash等。
(1)RRAM
RRAM(Resistive Random Access Memory)又被称为忆阻器,是一种极具潜力的新型非易失存储器件,基本存储单元为金属-绝缘体-金属或者金属-绝缘体-半导体的三明治结构。 如图4所示,上下为电极层,中间为绝缘的电阻转变层。通过在电极层施加电压/电流,电阻转变层的电阻值可以实现高阻态和低阻态的切换,每种组态对应1或者0,这样就可以存储器信息。且电阻转变层可以实现多级电阻状态,使其可存储多比特信息,这种电阻状态改变是非破坏性的的,即断电后也不会改变,这也是RRAM具有非易失性的原因。
图 4 RRAM基本结构[7] 图5 RRAM阵列[8]
如图5,忆阻器电路可以做成阵列结构,与矩阵形状类似,利用其矩阵运算能力,可以广泛应用于Al推理场景中。在Al推理过程中,通过输入矢量与模型的参数(也即权重)矩阵完成乘加运算,便可以得到推理结果。
以矩阵乘加运算为例,如图5所示,将模型的输入数据设为矩阵[V],模型的参数设为矩阵[G],运算后的输出数据设为矩阵[I]。在运算前,模型参数被转化为忆阻器阻值按行列位置存入忆阻器矩阵中(即[G]),在输入端给定不同电压值来表示输入矢量(即[V]),根据欧姆定律(电流=电压/电阻),便可在输出端得到对应的电流矢量,再根据基尔霍夫定律将电流相加得到输出结果的模拟值[I],经过ADC转换,便得到输出结果的数字值。多个存算阵列并行,便可完成多个矩阵乘加计算。
2023年10月,清华钱鹤、吴华强带领团队创新设计出适用于忆阻器存算一体的高效片上学习的新型通用算法和架构(STELLAR),研制出全球首颗全系统集成的、支持高效片上学习的忆阻器存算一体芯片,该成果已发表在《Science》上。
(2)PCM
PCM(Phase-change RAM)即相变存储器,是一种由硫族化合物材料构成的非易失存储器件,因为相变材料的两种相在切换之后,即使在断电的情况下也可以相对稳定地保持,这是因为相变涉及材料的结构重排,而这种结构变化是物理上的,并不依赖于持续的电源供应。如图6所示,PCM器件的典型结构为上电极、硫族化合物、电阻加热器、下电极。通过在两电极间施加不同形式的脉冲,对硫族化合物加热使其在晶态和非晶态之间转变,来表征高低阻特性,分别对应1或0,从而实现数据的存储和控制。
图 6 PCM基本结构[9]
PCM有非易失、存储密度高、多比特存储、支持3D堆叠等优点, 但PCM存在写入功耗较大、擦写次数较少等问题尚需攻关,因此当前PCM主要还是作为大容量存储器发展。基于PCM的存内计算研究相对较少,需要待产业进一步发展。
(3)MRAM
MRAM(Magnetoresistive Random Access Memory)是一种基于自旋电子学的新型非易失存储器件,以磁隧道结(MTJ)为核心结构,利用隧道磁阻效应实现电阻状态改变,每种电阻状态对应1或者0,来达到存储信息的目的,这种状态改变不随断电而改变,因此也是非易失性存储器。如图7可见,MTJ是自由层-隔离层-固定层三明治结构。固定层的磁场方向保持不变, 施加电压可改变自由层的磁场方向,当自由层和固定层磁场方向一致时, 器件呈现低阻态,代表逻辑“0”;当自由层和固定层磁场方向相反则为高阻态,代表逻辑“1”。
图 7 MRAM基本结构[10]
基于MRAM的存内计算芯片具有非易失、访问速度快、读/写次数高等优点,且具备较高的可靠性和稳定性,但MRAM器件成熟度较低,功耗、速度和耐久性等指标离理论预期尚有一定差距。当前业界基于MRAM的存内计算研究较少,需要推动器件成熟,同步挖掘其在存算一体领域的潜在场景。对于MRAM的相关研究,北航集成电路学院在MRAM领域的研究较多并已经做出了相当多的成果。
(4)FeFET[11]
FeFET(Ferroelectric Field Effect Transistor)具有极低的写功耗、快速的读取操作以及与CMOS兼容的高微缩能力等特点,这使基于FeFET的存储与CiM电路在密度和能效上的优势尤为突出。但FeFET仍存在工艺成熟度、可靠性和寿命上的不足。图8(b)展示了被广泛研究的金属-铁电-绝缘层-半导体(Metal-Ferroelectric-Insulator-Semiconductor, MFIS)FeFET结构,该结构在晶体管的栅极堆叠中嵌入铁电材料作为铁电层,如图8(a)所示,在施加电场时铁电层的极化状态同电场强度呈滞回特性,其极化状态在移除电场后仍能够保持不变。
FeFET的工作原理在于铁电层可以通过极化电荷对沟道施加场效应,从而控制晶体管的阈值电压。如图8(c)所示,FeFET的写入过程具有滞回特性,可以通过调整写入脉冲的幅度、宽度和次数来实现多值存储。由于写入操作中漏极与源极的电压可以相同,FeFET实际上具有容性的写入负载,写操作功耗极低。
图 8 FeFET基本结构及性质
(5)NOR Flash[12][13]
Flash 存储器根据其内部架构和实现技术可以分为AND、NAND、NOR几种,目前占据主流市场的有NOR Flash和NAND Flash两大类。它们都将存储单元组织为块阵列。块是擦除操作的最小单位,页是读、写操作的基本单位。NAND Flash的页大小通常为512B、2KB、4KB,而NOR Flash能够以字节为单位进行数据访问。
NOR Flash以并行的方式连接存储单元,具有分离的控制线、地址线和数据线,具有较快的读速度,能够提供片上执行的功能。但写操作和擦除操作的时间较长、且容量低、价格高。因此NOR Flash多被用于手机、BIOS芯片以及嵌入式系统中进行代码存储。
而在存内计算应用中,每个Flash存储器件的要存储远超存储应用下的bit位数,bit之间裕度更小、阈值电压飘逸、行串扰问题更加严重。知存WTM2101使用特殊的电路设计抑制阈值电压漂移对计算精度的影响。为了同时实现低功耗计算与低功耗控制,WTM2101结合了RISC-V指令集与NOR Flash存内计算阵列,其阵列结构与芯片架构如图9所示,包括1.8 MB NOR Flash存内计算阵列,一个RISC-V核,一个数字计算加速器组,320 kB RAM以及多种外设接口。
图 9 WTM2101芯片阵列及架构
(6)混合型存储器
由于目前还没有一种完美的存储器能够同时实现低成本、高访问速度、低能耗和高可靠性,为了在应用中实现一种具备这些优点的存储方式,其中一种思路就是将不同存储器混合使用[14]。文献[15]提出了一种将RRAM和SRAM存储器混合使用的方法,使用RRAM存储权重数据,因为它是非一时性存储器,具备零泄漏的特点,可以减少维持权重数据的功率开销;使用SRAM用于存储激活(storing activation),因为它的读写速度快,可以频繁更换数值。
存储器繁多、各具特点。具体到存内计算而言,由于不同类型的存储器几乎都需要“定制”不同的电路、控制方式等与其匹配,才能使其作为存内计算来使用。从具体使用的角度来看,应考虑具体应用场景的需求来选择存内计算的计算范式和使用的器件。从市场的角度来看,当前具备成熟生产条件的RRAM、Flash存储器或许是当前推动存内计算落地应用的重要方向。
表2 不同存储介质对比[16]
参考文献:
[1][2][7][9] 存算一体白皮书(2022年),中国移动通信有限公司研究院.
[3] Y. -D. Chih et al., "16.4 An 89TOPS/W and 16.3TOPS/mm2 All-Digital SRAM-Based Full-Precision Compute-In Memory Macro in 22nm for Machine-Learning Edge Applications," 2021 ISSCC, San Francisco, CA, USA, 2021, pp. 252-254.
[4] 存算一体芯片赛道企业收录(收录于存算一体芯片赛道投资融资分析,持续更新,上次更新于20230226) - 知乎.
[5][6] 深入内存/主存:解剖DRAM存储器 - 知乎.
[8] 针对忆阻器的工作原理和发展的研究 - 知乎.
[10] 存算一体:MRAM席卷而来 - 半导体产业纵横.
[11][16] 刘勇,李泰昕,祝希等.基于铁电晶体管的存储与存算一体电路[J].电子与信息学报,2023,45(09):3083-3097.
[12] 郑文静,李明强,舒继武.Flash存储技术[J].计算机研究与发展,2010,47(04):716-726.
[13] 郭昕婕,王光燿,王绍迪.存内计算芯片研究进展及应用[J].电子与信息学报,2023,45(05):1888-1898.
[14] K. Johguchhi, "A Smart Hybrid Solid-State-Drive Storage System based on Nonvolatile Storage-Class-Memories : Device, Circuit Design and Architecture," 2020 International Symposium on Devices, Circuits and Systems (ISDCS), Howrah, India, 2020, pp. 1-2, doi: 10.1109/ISDCS49393.2020.9263016.
[15] M. Rios, F. Ponzina, G. Ansaloni, A. Levisse and D. Atienza, "Running Efficiently CNNs on the Edge Thanks to Hybrid SRAM-RRAM In-Memory Computing," 2021 Design, Automation & Test in Europe Conference & Exhibition (DATE), Grenoble, France, 2021, pp. 1881-1886, doi: 10.23919/DATE51398.2021.9474233.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。