|

引言. ^" r& |( D& ?! r2 k: V
本文介绍SK hynix开发的创新技术:加速器内存(Accelerator-in-Memory,AiM)和AiMX系统。这些先进解决方案旨在应对大型语言模型(LLMs)带来的计算效率和成本效益挑战,适用于数据中心和设备端人工智能场景。( Q. e2 l4 r M9 {7 o% W5 x
1 W. A5 ?7 I& O# u. O
% w, e2 x! |2 r理解挑战:内存受限的大型语言模型4 F6 D ?/ p: ^" P' u, M
大型语言模型的核心操作在于矩阵-向量乘法,特别是在多头注意力(MHA)和全连接(FC)层中。这些操作主要受内存带宽限制,尤其是在小批量推理时。这一特性使得LLMs的运行成本高昂,无论是在计算资源还是能源消耗方面。0 l( }; ~. Q' |
+ D5 T0 j3 I& I& H" p
0lyjmk5vyxw64050447417.png
$ t+ A, W7 V) F) \* t1 c8 \# _
图1:展示了LLM操作的内存受限特性,说明矩阵-向量乘法如何主导计算景观。
7 |- d7 b% p, t( L) F; m5 Y* [: m' U5 `" e4 x! V( i
SK hynix的解决方案:加速器内存(AiM)9 w% k% i! j+ M2 }# U
为解决这一挑战,SK hynix推出了加速器内存(AiM)技术。AiM是一种突破性方法,将计算功能更靠近数据,显著减少带宽瓶颈。
, o2 B; f! Z0 b( ^$ {" @9 D# f7 `$ H. _
GDDR6-AiM的主要特点:
0 _6 M8 [! j2 f外部带宽:32 GB/s运行速度:1 GHz计算吞吐量:512 GFLOPS内部带宽:512 GB/s数值精度:BF16
# a' n3 D) _2 {9 O' V7 v* x8 x$ B/ J' \0 j$ U& d4 x
: }$ e$ B+ e; e7 {, O% M2 j
5fab0kcgjgq64050447517.png
$ z! K7 f: b5 x; k* x图2:展示了GDDR6-AiM的芯片照片和封装,突出显示了这项创新技术的物理实现。
3 R6 P3 z0 J' Q6 X* R6 O" J) [- g# ?
0 Z- f! f# K0 T, a8 {& g5 G" N7 U1 SAiMX:为数据中心应用扩展AiM! w! y7 g/ c4 u- W* z
在AiM技术的基础上,SK hynix开发了AiMX,这是一种专为数据中心应用设计的系统级解决方案。AiMX卡原型将多个AiM封装与FPGA相结合,创建了一个强大的LLM推理加速器。1 W: F9 |0 y5 d- U( \! g5 i" ]' G' J' a
) q; C- S& C% t3 [' x7 OAiMX卡原型规格:, U9 i7 y) [& F) R: m
主机接口:PCIe Gen3 x8x8(双分叉)形态因素:FHFL(兼容A100/A30)配置:2 FPGA x 16 AiM封装AiM容量:16 GB带宽:170 GB/s(@2.67Gbps)
# F2 ]5 O' a8 { a
' m: O8 e( ]- D* b) }% e- r
5 z2 M' g, w+ h3 G h0 q! o
uvuu1aondnt64050447618.png
B3 u8 v0 }4 W1 M$ j图3:展示了AiMX卡原型,演示了多个AiM封装如何集成到单个加速器卡中。
& W5 C2 J& ~* j: C9 k% C# K7 X
5 w, O U9 v1 j. H. W6 E优化AiM中的多头注意力(MHA)
9 D+ j; o" s- lAiM的一个关键优化是其处理多头注意力的方法,这是基于transformer的模型的关键组件。AiM采用智能数据放置策略来处理键和值矩阵,以最大化效率。- P5 {$ a7 L* z+ d
2 k6 Q. o/ W: I7 ^* G8 h
c3yxtvzsdwn64050447718.png
, Z7 r2 P- ^7 \9 y! ^
图4:说明了AiM感知的键/值矩阵放置策略,展示了数据如何在存储体间分布以实现最佳性能。
" p3 d. L- K: a1 Z
4 M" D( D9 Y7 ^5 r扩展AiMX卡以提升性能
+ e( M0 u8 e/ D' l1 T8 USK hynix进一步改进了AiMX解决方案,推出了扩展卡设计,将AiM封装的容量和数量翻倍。
# E) c) G: E; e( H
, t" k9 |5 P Z, S- Z扩展AiMX卡规格:
N3 h h% P# ?* U形态因素:FHFL(兼容H100/A100)配置:2 FPGA x 32 AiM封装AiM容量:32 GB带宽:170 GB/s(@2.67Gbps)散热:被动式
& h3 q9 `; r: a% E' ?2 Q! p) w8 S7 L) c1 |& K% }
% ?' {$ |: _9 u( @/ F9 A; V
2einr1idvld64050447818.png
; ~4 v t8 j1 r- l+ ~2 F# S# w
图5:展示了扩展AiMX卡原型,突出显示了增加的AiM封装数量和改进的设计。9 A0 _ A8 J7 f5 [1 Q
; l, y! k- {1 |( e$ z
用于设备端人工智能的AiM和AiMX
0 r1 A: n3 U* B4 o认识到设备端人工智能的日益重要性,SK hynix将AiM技术适配用于移动和边缘应用。LPDDR-AiM旨在满足设备端人工智能的独特挑战,包括形态因素限制、低批量大小和能效要求。
6 t9 u+ k. `; w( E: \7 [- c) @7 T5 }, v5 w* N9 L
LPDDR-AiM规格(每个芯片):
; B6 b# `( H: C8 w0 @内存密度:1-2 GB组织结构:X16IO数据率:9.6外部带宽:19.2 GB/s数值精度:INT4/8处理单元:16 PU/芯片计算吞吐量:307.2 GOPS内部带宽:153.6 GB/s
' h. a W6 v. j3 ~9 u+ U- B0 b* h5 F* A" l
6 f# a9 }3 d$ H& r( @# ~% @
zbuty4lst2y64050447918.png
$ q; U2 @1 K8 i7 ^3 |$ R图6:展示了LPDDR-AiM的规格,并强调了其与现有LPDDR协议的兼容性。
; l3 n9 \ H3 g7 | F; j3 O
L% ^# G" M0 i" r用于设备端人工智能的AiMX系统架构; B/ W9 f3 K. X" k0 j$ | U/ Z
设备端AiMX系统架构与其数据中心对应物相似,但已适配移动平台。这种设计允许与移动应用处理器或客户端CPU无缝集成。
' L. l0 G. o" v3 X+ \: J; A( Q- a
; M( e4 i1 H/ Q
3rs51v4jcd064050448018.png
6 ^! g. o3 i* \7 s9 A$ L4 z( L3 w图7:比较了数据中心和设备端人工智能应用的AiMX系统架构,说明了相似之处和为移动使用所做的调整。% S. t( N) d0 l5 D# F k% E
/ f+ U( ^" l3 S6 i' ~ N/ e, s( _# s
未来设计考虑 n% w% F E# \+ d4 i9 R$ q
随着SK hynix继续发展AiM和AiMX技术,正在探索几个设计选择:
9 r% Y T i0 u& _. |7 Q' F" H1 G W
1. AiM功能:
! j$ g1 e, D$ t) B从GEMV扩展到包括GEMM和其他操作
' `" V% V# R& B$ p& Q7 I支持各种精度(二进制、整数、浮点、BF、MX)& Z2 N$ G+ i- p
探索异构精度能力
4 k+ L% D. L& `7 n& @: F% R- }
0 E/ V: c \5 C+ Y2. SoC优化:1 F& I$ I$ J$ D# d# {' W6 ?
平衡功率和热约束
8 g4 w# D* z* h3 {改善MAC到MAC延迟; p1 \$ R5 R8 d) t$ f8 g
优化存储体到MAC比率3 v, H8 D, D4 \; e" G
实施动态电源供应策略
0 \6 o, O4 O$ D9 H( Z" K5 N& v- g4 k+ x D; _, E
3. 软件增强:
# V3 Q; U' ~# s. x开发PIM感知内存管理技术
? R, p" u! A9 h% O实现大页面大小以高效放置权重数据
5 k1 S8 J% |( o0 L7 o5 W创建PIM感知内存交换策略! q) p& F) R' U# f/ P
; t( w8 ~4 X& R1 _
lc5opsyvnhj64050448119.png
6 K G4 P+ b0 e5 f
图8:概述了未来AiM实现的各种设计选择,聚焦于功能、精度和潜在应用。
5 v( }* K! s8 \) P% p; J# w* i; X; H* s
结论和未来展望/ R3 f- v3 Q" Z% F& J0 P) B
SK hynix的AiM和AiMX解决方案在解决内存受限人工智能工作负载的挑战方面代表了重大进步。从数据中心到移动设备,这些技术有望提高性能,降低能源消耗,实现更高效的人工智能推理。9 X% s4 ]0 \ e4 P o% k
5 x2 y3 \. G$ t! pAiM和AiMX的发展路线图雄心勃勃,计划为数据中心提供高容量解决方案,实现设备端人工智能,并探索先进封装技术如混合键合。随着这些技术的成熟,有潜力重塑人工智能加速的格局,使先进的人工智能应用更易获得和更具可持续性。
- U% i9 I% a, f* i; I, E; H6 W* X* M$ _* A; w* R3 o. H
wrkwicmt2gk64050448219.png
3 }( X E; p+ b3 b图9:展示了SK hynix的AiM和AiMX技术路线图,展示了从芯片级解决方案到系统级实现和未来创新的演变。" l% X1 ?! C$ l, q
~7 M; o* Q2 ]9 c随着人工智能继续渗透到我们数字生活的各个方面,像AiM和AiMX这样的解决方案将在实现更强大、高效和普遍的人工智能应用中发挥关键作用。研究人员、开发人员和硬件工程师应密切关注这些新兴技术,并考虑如何利用这些技术来推动人工智能的可能性边界。
; s: s/ Q, ^7 l
; ^8 H8 h8 E4 Q9 w0 c( B参考文献
' G4 G9 `8 M; ?5 U2 [/ o) ~3 X[1]G. Kim et al."SK hynix AI-Specific Computing Memory Solution: From AiM device to Heterogeneous AiMX-xPU System for Comprehensive LLM Inference," in Hot Chips 2024.
7 D" |6 c# I( S
6 R! Z ?+ A! V! W) ?* D+ E- END -
& y) H. o' Y- J8 b. C3 r" M
2 M9 z; Z: e7 P" K1 d; |软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。7 `: Y: x" \0 p
点击左下角"阅读原文"马上申请
; K% Q/ e, ?( @5 Z; w7 B, t
1 x7 O( @/ s) M% P+ e欢迎转载
# Q5 @' m W- X) `- c7 L& w
% a3 P$ h' g: `/ y转载请注明出处,请勿修改内容和删除作者信息!$ j' g; T. O7 g1 e+ n
6 @. H; }- N4 o& {6 p& X
4 m. n+ S" X( A4 X g% g) X' k+ m( f i! Z
yclq2vua1oc64050448319.gif
0 P# k! n# e; Q- z+ Z% q, _! ~$ S" Z) i
* S& U+ R7 q" } m4 n4 e关注我们
5 b, F& n$ A ]- Q& C) y, K+ Q4 G x9 R
5 J2 y& ?8 a7 _# Y
xq3egfybadd64050448419.png
$ M8 H( A. E2 m |
' d' G, l) O! n2 m( [( {# L& v8 u
xbtnl4chepl64050448519.png
! v: r( A3 A2 O/ Y( j$ {9 B, w
|
$ I! T( p1 ^8 @1 ~( `
c1udmeeonna64050448619.png
* i5 v5 @; A9 m$ U
| / h! K5 y, x. B6 Y. A
5 B: @- R4 I! S7 Y* Y: J. z- G( J8 i" a9 d6 O A! f, C- I6 J# P; g
0 E- S% k7 V, n- t) p, A
关于我们:
, p' l) e M+ Y' ^! J8 o# L" g深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
% Z* i8 ?8 q$ t) i! Z
/ r* {4 y3 V( F0 ~2 {; Dhttp://www.latitudeda.com/
. u3 {0 Y Q+ b) h- G; C. y* }" T(点击上方名片关注我们,发现更多精彩内容) |
|