投稿问答最小化  关闭

万维书刊APP下载

JSSC:我国学者双维度自循环存算一体化电路,优化了存算一体化过程

2023/2/24 9:07:44  阅读:166 发布者:

1

JSSC:我国学者双维度自循环存算一体化电路,优化了存算一体化过程

近日,安徽大学集成电路学院吴秀龙教授团队的研究成果“基于自循环8T SRAM的存内逻辑运算及按行复制电路研究”被国际集成电路设计领域顶级期刊IEEE Journal of Solid-State Circuits (JSSC)录用。

近年来,随着大数据、人工智能等关键技术的突破,以机器学习、知识图谱为代表的人工智能技术涌现在高速发展的时代潮流之中。

然而传统冯诺依曼架构中计算与存储分离,无法满足深度学习算法所带来的运算效率需求,为了打破传统计算架构的“存储墙”,存内计算技术应运而生。然而,传统存算架构只实现了并行计算,回写大规模并行计算结果可能成为新的瓶颈。

该团队提出了双维度自循环存算一体化电路,优化了存算一体化过程,从传统存算中的写入->计算->缓冲->回写变为写入->计算+回写,其中计算+回写是同时进行。

该团队所提出的架构吞吐量为1851.4 GOPS,与现有的存算宏相比,吞吐量增加了3-56.6倍;在0.66V的电源电压下,能量效率高达270.5TOPS/W。该团队所提出的架构应用于高级加密标准(AES)算法时,与冯诺依曼架构相比,能量效率提高了约47.5%63%

出版信息

标题:

In Situ Storing 8T SRAM-CIM Macro for Full-Array Boolean Logic and Copy Operations

出版信息:

IEEE Journal of Solid-State Circuits27 September 2022

DOI:

10.1109/JSSC.2022.3206318

 

2

链式张量存算一体AI芯片:以“计算换存储”打破AI模型“访存墙”

清华大学集成电路学院魏少军教授、尹首一教授团队在存算一体人工智能(AI)芯片方向取得突破。该团队设计的存算一体芯片TT@CIM,以彻底消除AI算法模型参数访存为目标,突破传统AI芯片固有的“访存墙”瓶颈,为系统级高能效存算一体AI芯片的设计提供了一条新技术路径。

传统冯·诺依曼体系结构所带来的“访存墙”问题日益严重,计算单元与存储单元间频繁的数据搬移造成了大量能耗。存内计算(CIM)单元将计算与存储电路合二为一,被视为打破“访存墙”的有效途径,因而在能效方面具有天然的理论优势。随着人工智能算法日渐复杂,AI算法模型参数量呈爆炸式增长,大幅超过当前AI芯片内所能集成的SRAM-CIM模块容量。因此,当前所设计的存算一体AI芯片仍然需要依赖从片外DRAM读取AI算法模型参数。如图1所示:(1DRAM的访存能耗约为10 pJ/bit,而SRAM-CIM一次计算的平均能耗约为87 fJ;(2)当考虑DRAM访存能耗时,存算一体AI芯片一次计算将消耗约3741.6 fJ的能量,其相较于基于传统冯·诺依曼体系结构的AI芯片仅能实现1.04倍的能效提升,远低于SRAM-CIM宏单元的能效提升率。可见,AI算法模型的片外访存极大制约了存算一体所带来的能效收益。

为了在系统级层面彻底消除“访存墙”瓶颈,彻底释放CIM所具备的“计算能耗低”的特性,TT@CIM采用了“计算换存储”这一思想,如图2所示:(1)通过张量链(Tensor-Train, TT)算法,原始AI模型被分解为一系列四维核心张量Gκ∈Rrκ-1×rκ×mκ×nκ, κ = 1, 2, ... , d,相较于原始模型,Gκ具有极小的参数量,可被CIM芯片完全存储于片上;(2)在TT@CIM中,常规CIM芯片中的“向量-矩阵乘法(VxM)”被转化为“向量-张量链乘法(VxTT)”,相较于原始AI推理过程,向量-张量链乘法运算量有所增加;(3)对于一次矩阵向量积计算,图2解析地给出了“计算换存储”前后的模型参数量和计算量。对于完整的一个网络,以Wide-ResNet-20网络为例,其原模型有3.91 M个参数,其无法完全存储于TT@CIM中。通过TT算法处理,仅需存储119.5 K个参数,以增加约11倍计算量的代价,换取了约34倍模型参数量的下降,进而可以完全存储在TT@CIM所集成128 KB SRAM-CIM中,避免了约4 MB的片外访存。

针对这三大“计算换存储”难点,TT@CIM芯片创新地设计了(1)四维核心张量链式乘法-存内计算-维度匹配的计算数据流架构:重塑高维链式乘法计算以匹配单个CIM宏单元的乘加计算并行性,提升硬件利用率1.6-5.0倍;(2)挖掘数据复用与乘法融合方法减少了乘法计算11-308倍。同时,TT@CIM基于位级稀疏机制优化CIM电路计算功耗,并利用混合数据编码方式提升AI算法中参数的位级稀疏度,降低了13%-15%的芯片能耗;(3)对链式乘法中的输入激励数据采取多精度混合量化方案,对分别为异常值和正常值的激励数据采用不同的量化精度,缩减了激励数据的平均量化位宽,从而降低CIM的位串行输入周期,使芯片吞吐性能提升了10%-20%

出版信息

标题:

TT@CIM: A Tensor-Train In-Memory-Computing Processor Using Bit-Level-Sparsity Optimization and Variable Precision Quantization

出版信息:

IEEE Journal of Solid-State Circuits25 August 2022

DOI:

10.1109/JSSC.2022.3198413

转自:“科研之友 ScholarMate”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com