|

引言
+ k* A( @/ R1 }# B& Y近年来,对能效高的人工智能(AI)推理运算的需求推动了硬件架构的创新。虽然二维架构如脉动阵列和计算存储器(CIM)设计已显示出优势,但随着CMOS技术缩放接近极限,这些设计面临着局限性。本文探讨三维集成技术如何克服这些挑战,同时考虑能效和环境影响[1]。
2 N: ^+ d q# p$ ~- P3 F
2avmsmji5oe6404566512.png
! m x; o6 j: Z: r" K/ m2 h, q$ g; s2 y, Q/ g) V1 O, U
1
6 h" n0 V7 `" @: G1 W硬件架构与实现
; \& {. M, N1 Z研究中探索的基本架构将传统脉动阵列与数字计算存储器(DCIM)在二维和三维配置中结合。如论文图1所示,存在四种主要架构方法:
. _3 w6 v$ L, H) N7 k
aoyb3ily3g36404566612.png
r# [8 p2 J" a0 A图1:不同硬件配置展示:(a)二维脉动阵列设计,(b)二维DCIM阵列设计,(c)具有分离计算资源的三维方案1设计,以及(d)具有存储器叠加逻辑的三维方案2设计。+ Y, n, b4 ~8 m% o+ E7 s L5 R4 P
! t+ k' {6 D! @1 R' ?9 x4 U基准二维脉动阵列架构包含用于激活和权重的片上缓冲器,处理单元(PE)由8位MAC单元和寄存器组成。二维DCIM阵列用具有计算能力的存储器单元替代传统存储器,在保持相同吞吐量的同时减少数据移动。对于三维实现,主要探索两种方案:& m& q$ }7 U$ w* u( d1 W
三维方案1:资源在通过面对面连接的两个芯片之间平均分配,每个芯片都具备计算和存储能力。
- b- a6 E, r; M2 a三维方案2:采用存储器叠加逻辑方法,将缓冲器放置在计算阵列上方的顶层芯片上。
8 X# A1 O/ E7 d1 g. d. e' z! y T' m' u( v& i5 V. w; s' q& O8 k" O
这些架构利用了台积电SoIC等先进的三维制造技术,实现了小于10微米间距的高密度混合键合。这使得高带宽垂直连接成为可能,同时减少了线长。
7 }: a6 T1 d! U* k1 ?0 F" v8 M$ t0 J5 D% R* k' f' `4 y% Q
2
; c- u* E/ ^0 V; G+ a/ s7 z性能分析框架/ M( g7 d3 v4 E @9 ^( V0 M
为评估这些架构,开发了综合建模框架,如图2所示:
0 Y0 O+ j0 F" t4 n; E ^$ b
a1w25rucbs06404566712.png
# N% P {: [% O图2:提出的框架概述,显示从工作负载分析到能量、面积和碳排放估算的流程。
, J }5 l6 w6 t; i# i) r) O* `7 f$ n7 J/ G
计算阵列尺寸(如图3所示)直接影响性能:
% p2 W- x6 m# ]
irdv32rxlyd6404566812.png
1 [' x+ j- ^* a- O& h8 M; H) Z
图3:(a)具有DR行和DC列的计算阵列尺寸,以及(b)输入/输出激活和权重的工作负载尺寸。4 j+ J" G: u9 s- Z j5 E1 |; Q
$ G/ u m2 h, p# W0 u
3
- @/ `6 b7 N% M$ h, F9 W* }能效分析
' `/ ~; _. X* L! T能耗分析揭示了不同架构选择之间的权衡。图4提供了详细的分类:
3 V! J& `5 }9 C
34rdauuku3j6404566912.png
5 o. h1 f$ ^3 i; [图4:PE阵列大小为(a)1K和(b)4K时,脉动阵列和相应DCIM阵列计算MobileNet工作负载的能耗分析。
/ N# K2 g( @, `/ V4 S$ A- k
& T: W* d* S0 b( Z) U* M0 _结果表明,三维DCIM架构与二维脉动阵列相比可实现高达42.5%的节能。这种改进来自以下几个因素:垂直连接中的线长减少激活缓冲器大小利用率提高DCIM单元中的权重存储更高效DCIM设计中每次MAC运算能耗更低3 q- W+ }5 ^. C
[/ol]
. U( V H$ H [+ L0 [( w能源节省与面积效率之间的关系如图5所示:
# ?( }5 F3 u% o, Y0 O# [% R
h0tokjxmqqa6404567012.png
0 m9 u/ E# v/ |& Z* V图5:相对于二维基准标准化的ResNet-50工作负载的能源节省与面积节省关系。
5 C. C3 y5 U0 g
) }( T( b% b4 R! K' w4
/ A3 h& v' f( T/ V) Q; E: z碳足迹考量
7 F( ~# i# m2 G' M% X. ]现代硬件设计中的环境影响分析已成为关键考量。该框架包含详细的碳足迹分析,如图6所示:
% W0 C+ P+ ]/ Z: s0 s/ T
rwnneghczs46404567112.png
- K$ x0 l8 }9 Q6 T; J图6:1K PE阵列大小的不同硬件架构的碳排放量。; [) c( W& a; A2 n
1 @/ g/ {7 Q0 l
碳分析显示,虽然三维集成能提供性能优势,但也带来了特定的环境影响因素:TSV开销为底层芯片碳足迹增加约13%混合键合引入约7%的额外碳开销层间芯片尺寸匹配影响总碳足迹
: K. k% `' @8 k# _. E[/ol]$ c; q: P0 y- X2 V9 B6 W
碳足迹与性能指标之间的关系如图7所示:! T1 H9 t/ N+ c6 A- a, v7 \& R- l
bpednhekg5e6404567213.png
9 u, \1 q S! g6 ? E
图7:(a)能量和(b)周期相对于碳排放量的关系,其中碳排放量、能量和周期均相对于二维基准进行标准化。* m- x! \1 b5 p, Q& `
8 D% o3 L+ L2 e e. d5# C/ G5 P, t9 _8 D y
高级性能优化
' L0 J/ c4 P; ]. |6 b研究显示了在不同AI工作负载中的多项优化机会。图8展示了各种架构在不同AI模型中的表现: s# S! Y( r- l, [8 s. i3 ?) D
x3j3wenxdbs6404567313.png
% ?9 _6 d/ A6 l
图8:在不同AI工作负载下,三维DCIM架构在不同PE阵列大小下的总能耗平均值比较。2 P: I( F7 T; k" C e& b
3 g6 a7 F J$ x. q. {' l
对于权重较大且通道较浅的工作负载,三维SA_1方案在工作负载映射方面显示出一些效率损失,在使用1K PE大小时,某些网络(如ResNet-18)的周期增加28%到40%。这种效率损失使利用率从二维基准的96%降低到69%-86%。) U# b5 d, p# @5 V2 L( ^" \
! g) A6 c4 P0 X1 j
但随着层权重维度减小和通道加深,三维SA_1方案显示出明显改善。对于ResNet-18,三维SA_1a平均仅比二维基准多7.0%的周期和低3.7%的利用率,而三维SA_1b方案仅多2.2%的周期和低1.0%的利用率。
9 I K' {+ \% k# P/ G4 J; t& A' d) l. g. M$ j, M
三维SA_2方案通过将缓冲器垂直置于MAC阵列上方,实现了更优性能,支持同时权重更新,将每次折叠的周期减少到DR + DC + T ? 1。这使ResNet-18的周期减少11.5%,利用率提高5.08%。
6 m |3 r3 c, L$ n/ T9 V3 j
' o! u9 d8 ^6 v/ [8 s5 O- K" g6! f5 [6 d5 z$ ?
碳排放分析细化( n. N# k$ k3 m9 T+ S, o
碳排放估算在不同PE阵列大小的扩展中显示出额外的复杂性。图9提供了这些关系的见解:
1 `6 o% N: s; f1 f1 L
nppwbwvtach6404567413.png
5 E0 P' V3 b6 v# n图9:各PE阵列大小相对于二维基准芯片面积的碳排放标准化结果,显示了不同架构方法的扩展效应。6 E" Q' K: b6 j# Y
7 j9 L* g" X9 {* b2 w分析显示,对于大规模设计(≥100 mm2),三维架构能有效减少碳足迹。然而,对于较小规模设计(如0.25K PE阵列),由于芯片面积小导致产率改善有限,三维架构实际上会增加碳开销。
. P! r% ?: @# [" z7 e$ j0 c( F: I! k& w J, Z" R( }1 s
当考虑存储器叠加逻辑配置(三维SA_2和三维DCIM_2)时,芯片面积不匹配成为关键因素。在这些配置中,如果缓冲器芯片大小超过计算阵列芯片大小,总芯片面积必须匹配较大尺寸,实际上增加了总碳足迹。这种效应在脉动阵列实现中特别明显,显示约29.3%的面积开销,而DCIM实现显示较低的3.4%开销。
/ U1 s% X. Z1 Z4 E n9 v( L& U& D) D0 X2 w, l
7
) G5 l2 X. @4 o; Q% ?未来设计思考0 k( s6 h$ y% F0 Y) T- V
研究结果为将来的三维集成电路设计与DCIM提供了数项重要考量:对于小于1K PE阵列的设计,纯三维集成(三维SA方案和三维DCIM_2)相比二维脉动阵列设计优势有限,三维DCIM_1是例外。较大规模设计从三维集成中获益更多,特别是当结合三维SA_1和三维DCIM_1方案时,这得益于产率提升和芯片面积不匹配减少带来的更好布局。不同三维方案的选择应考虑目标工作负载特性,因为通道深度和权重维度显着影响各种架构的效果。混合键合和TSV的碳足迹开销必须与潜在性能提升进行权衡,尤其是对于较小规模设计,产率提升可能无法抵消额外的碳成本。! s7 g# H( `8 k y9 u" m
[/ol]
) y. \' K% y3 l5 j0 k+ K: ~6 M- M d: v8
3 b8 B8 D q N/ {1 P% R总结与展望
" A" C! E, T; k基于研究结果,可得出以下主要结论:
v$ M+ \3 u0 w4 w$ F9 e! D1 E4 d在能效方面,三维DCIM架构展现出显着优势,与二维脉动阵列相比,在8种不同AI工作负载中平均实现42.5%的能耗节省。
. d5 m9 s& t' l8 X2 e垂直数据映射方式显着影响性能。对于ResNet-18等网络,三维SA_1a和三维SA_1b方案分别实现了7.0%和2.2%的周期增加,但利用率仅降低3.7%和1.0%。- T4 B7 a, q1 C3 D6 V' P. N( N
三维DCIM_1方案在能效和碳足迹方面表现最佳,特别适合大规模设计。对于小型设计,需要仔细评估三维集成带来的额外制造复杂性是否值得。) N# d$ b" J5 b6 b( R+ m
芯片面积不匹配问题在存储器叠加逻辑设计中尤为突出,导致高达29.3%的面积开销,这直接影响碳足迹和成本效益。& f# s5 I2 k3 I; W$ a
[/ol]
' @0 V7 \: E7 |6 ?% Y$ W/ ?$ N* Y三维集成与DCIM技术的结合为下一代AI加速器提供了实用解决方案。然而,设计人员需要根据具体应用场景、规模需求和环境影响进行细致权衡。特别是在考虑采用三维架构时,应充分评估工作负载特性、芯片面积匹配度以及环境因素,以实现最佳的综合性能。, Z, G9 Y) R* w6 u) D- Q" J
, u: R: O9 t- G5 y
参考文献
/ h1 l2 h( A4 W7 I[1] H. J. Byun, U. Gupta, and J.-S. Seo, "Energy-/Carbon-Aware Evaluation and Optimization of 3-D IC Architecture With Digital Compute-in-Memory Designs," IEEE Journal on Exploratory Solid-State Computational Devices and Circuits, vol. 10, pp. 98-106, 2024, doi: 10.1109/JXCDC.2024.3479100.8 I" {2 q6 i' W' E
END7 n3 w: @- }, I0 D+ ~& ?7 b
5 Q& j. `0 J( r% t* Y% @) ?
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。& J( z" b' v, f6 } H
点击左下角"阅读原文"马上申请
+ D, [8 A! x0 J3 K6 g7 E1 P. _6 `+ s5 ^& {+ c( [. x: T
欢迎转载
5 m$ I" ^9 ?# a4 l# C0 J% S# V9 }- w/ d9 d6 X
转载请注明出处,请勿修改内容和删除作者信息!+ g* \! {5 l1 [* v* F$ w5 z
' }: m6 {5 _6 G1 E. `1 v! _- P$ ], S# p2 i/ r" b% V$ M
8 W6 A+ N* K8 o4 R5 ?5 m/ ~
ghkpeie510u6404567513.gif
8 P# ?1 J% y& N" g' k
' m/ h3 b, f5 l* d1 d; p
关注我们
7 v+ r7 f! x' r4 O |% M* d6 @3 H- V/ W6 N
! E' [1 V9 x" n7 s
ma0ojxbbkjg6404567613.png
$ |7 a$ x2 i( e9 I | ( P6 Y% r s- c3 R3 T/ o. \
vrmqlsx3f3v6404567713.png
! `9 s/ k0 M3 Q1 x5 n
| 2 u" Y( u& q# z5 h1 v
so0jaxzm5ys6404567813.png
7 _1 K1 _. U& `( c: i/ }- b | ; f( o1 |3 }% L# q6 Q; D4 V' [
2 j& r4 ?4 h% Z: H6 r
+ l1 I/ U6 B5 f% m0 t1 ]( W$ U6 v1 X* A4 k
关于我们:2 Y% A1 j$ F& z, t( N E8 B
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
: }; G! O& S" W4 A+ E
/ G" D5 }: q$ c* q% t Dhttp://www.latitudeda.com/% I) x2 r: B; t8 {+ @
(点击上方名片关注我们,发现更多精彩内容) |
|