|
引言9 |9 i# p! @! v! t8 `
人工智能(AI)已成为现代技术的基石,推动着各个领域的创新。随着AI模型日益复杂和规模化,对更强大、更高效的计算系统的需求也在不断增加。在这些先进的AI系统中,组件之间的互连性是一个关键方面,尤其是在AI集群中。本文探讨了AI集群中光连接的特殊要求,重点关注下一代AI计算架构的挑战和潜在解决方案[1]。/ H7 t+ t( e- x& M' M
lzyar5xasm264046210415.png
( i$ E p- R" h( u8 Q" d5 V# j$ a/ B2 O8 A$ {1 O% u, G7 G- X* z
理解AI计算链路
6 \) W" A, e; l8 C在AI集群中,不同类型的链路连接着系统的各个组件。可以根据功能、距离和性能要求对这些链路进行分类。( l+ S- V% f0 Y4 T4 k
lfrovmpio1f64046210515.png
( @. ~% j. C. \2 i, G+ v5 p& _
图1展示了AI计算架构的示例,突出显示了不同类型的链路,包括前端网络、后端计算和本地加速器互连。3 _; i" T8 B/ [& R! v, N& W
! a7 [. }+ N* E, s3 V d ]8 bAI集群中的关键链路包括:
2 ?" B/ b5 z( {9 ?/ ?. O1. 远程加速器链路:这些连接跨越100米或更长的距离,通常使用以太网(UEC)或InfiniBand协议。由于涉及的距离较长,已经在使用光技术。6 { s1 `7 @ y+ [, X3 T# r& B
2. 本地加速器链路:覆盖1.5米或更长的距离(未来可能减少到10米以下),目前使用PCIe、CXL、UALink或NVLink等协议。主要基于铜线,但正在开始向光解决方案过渡。: P7 K( y$ l7 ~1 ?+ O E
3. 高带宽内存(HBM)链路:这些是非常短距离的连接(约1厘米),使用HBM3或HBM3E等协议。需要极宽的接口,对延迟非常敏感。/ \: Q- T6 a" l4 {1 ]
6 Y) K) o. g4 _: x
本地加速器链路:创新的焦点- J$ f5 v+ y2 v# w
本文主要关注本地加速器链路,因为在AI集群中,这些链路呈现出独特的挑战和改进机会。
0 E; B$ q# y1 f8 M3 R2 n& G, G$ ~5 i+ q
本地加速器链路的现状3 e: k5 q. L7 B1 J* f
jmhhmfyhsrf64046210616.png
1 t- ^+ [9 F: O" h4 |图2描绘了当前最先进的系统,使用200G的铜基连接,显示了扩展电缆和NVLINK交换卡。# Q7 c. t3 x& c0 P4 n
. |) f) E, ^) A' t最先进的AI系统目前在本地加速器链路中采用200G的铜基连接。机架内连接是无源的,有助于降低功耗和延迟。然而,随着AI系统的不断发展,需要至少将互连带宽翻倍,同时延长传输距离并连接更多的加速器。8 E$ T' w' l# _- `, I5 H! @8 ]: Z
- a1 Q' w0 s2 b$ `3 f7 _% a例如,当前系统可能具有:
% d: V5 f; k3 u( ]& X9 ^' {! s每个GPU 72个数据路径每个GPU 7.2 Tbps带宽每个机架5,184个数据路径
6 @! Z6 a5 }# Q; s/ w" O9 Y7 k( K% S. x7 b' F, z' ?
未来的GPU预计需要:. _$ w: ]& \" n/ @( k
每个GPU 51.2 Tbps每个系统72个GPU每个GPU 512个数据路径,速率为200G(发送和接收)每个机架36,864个数据路径
, r' O2 J i: e" d, F+ v" \) v- o" d
这种带宽和连接需求的显著增加对铜基解决方案构成了挑战,可能难以高效满足。# f, h: {; y7 `
, v8 Q4 V6 }+ I/ e; g# m7 ^: J
本地加速器链路的特殊特性
* P5 P: Q+ H4 a g本地加速器链路具有独特的特性,使其区别于AI集群中的其他类型连接:
6 D) @- |" X9 @, {4 c3 v
! _$ x7 N& j: n8 ^: ~" @, v4 i) t ]( R' ~0 y/ m1 t6 S7 b
1. 协议适应:大多数本地加速器链路基于PCIe协议,该协议最初是为铜连接设计的。将此协议适应光链路需要解决几个挑战:
( k. a' `. Z5 H6 Y! D2 h: o修改接收器检测、侧带、电气空闲、超时、低频信号和扩频时钟等方面。7 m! o% ^% V' i1 D" ?# i5 i5 Q" o
业界采取两步法:首先保持向后兼容性,然后定义一个适合光的协议。
3 d) J9 `4 Z6 C) [, M1 V, y" J
8 o. m) [* @) t9 g" w2. 更严格的比特错误率(BER)要求:本地加速器链路要求最大帧错误率(FBER)小于1e-6,比典型的以太网要求更严格。然而,这可以通过当今的集成光技术实现。
0 t8 h( o2 D! e0 F
: a: d- J# a, E# a0 e- {' G- _9 E3. 严格的延迟和功耗效率目标:这些链路需要满足非常苛刻的延迟和功耗效率要求。前面提到的"第二步"协议旨在解决这些需求。
|6 n* B8 n5 n6 L @7 _7 B' f$ V- {8 |3 L2 u" p
4. 互操作性和可扩展性:确保不同组件之间的互操作性以及支持具有高基数(端口数)的大型集群很重要。
- Q: j: A' ^4 I
4xosdnfmhvq64046210716.png
( z9 o$ u" w0 B' R3 n$ g" v- U图3显示了PCIe协议向光链路演进的过程,说明了当前的铜基方法和两个步骤朝向适合光的协议发展。8 U _. n0 f8 T/ z& p
# P. Q7 _, r2 L- M' D1 Y# n
硬件可靠性考虑1 Y; {# Z1 T; F$ ?1 I1 B5 n
可靠性是AI集群设计中的一个关键因素,特别是对于本地加速器互连。业界通常使用Telcordia SR-322标准作为预测可靠性的基础。" N7 z$ ]6 ]$ o2 J1 t# m
( L* L! N% A3 }/ Y+ `) h: q3 y关于硬件可靠性的要点:) k$ n9 w; k% _; G9 g8 K
1. 故障率预测:可靠性通常分为三个阶段:早期故障、随机故障和老化故障。重点是在系统运行寿命期间最小化随机故障。( l/ V! M' i7 |) g* r% x- J
/ J- K# J" r& h* m1 f
# ^/ ?0 Z, Q4 j/ J* x% d; w1 G' A( Y2 e
2. 集成解决方案:高度集成的IC解决方案预计更可靠。这一原则预计也适用于基于硅的光电集成芯片(SI-EPICs)。: X& V5 r5 {& l
, x; C, ^ D# i3 U4 i8 ^% C |3 M6 Q# k! e6 U C
3. 激光器可靠性:激光器是光系统中的关键组件。激光器的最佳随机故障率约为1 FIT(每十亿器件小时一次故障)。 p5 s5 t% A1 X" ^
9 y' _7 |; `% H) D+ A% U
9 \# A. z" q- m$ B4 U' W( P4. 集成策略:激光器可以集成在可插拔模块中(如OIF的ELSFP形状因子)以便于更换,或直接集成冗余以实现极低的故障率。9 g2 q2 ^5 Y1 U9 c
( b: @6 _0 m9 F4 w' ~3 H2 ?
关键结论是,只有高度集成的光电子解决方案,通常称为光电共封装(CPO),才可能满足AI计算系统本地光互连的严格硬件可靠性要求。
1 U) W' n7 @/ H6 \' C! G" N
" b( G' s6 K& ^" R向更高容量过渡
, P8 t7 ^ t! L1 n) D- ?; o; ^+ n2 i随着AI系统对带宽的需求不断增加,有几种潜在的路径可以实现容量翻倍:
( ` M1 x- \2 z1 a2 R
; g. p& u6 p, ~0 W* p. i( [0 Y% h
1. 升级到400G电气链路:这种方法涉及从200G转移到400G电气链路。然而,这种转变预计会减少传输距离,并对功耗和延迟产生负面影响。: b8 B) O C" [; s' W
1 \* {9 A' r: j" T' n3 |
# k$ R: d6 O/ O! ^3 w4 G2. 双通道200G链路:另一种选择是继续使用200G信号,但每个链路使用两个电气通道。这种方法需要更多的连接器面积,在密集封装的系统中可能成为限制因素。" m {8 v3 e9 ?1 ]
8 }0 {, W; N& P/ M L6 U5 _% z- k" s
7 i" `# f" m, Y& G3 y: {3. 过渡到使用CPO的光链路:光电共封装为下一代系统提供了所需的更高密度,是一个有希望的解决方案。. ]9 O: P/ o: p& ?( D/ L
chfeln5c2bt64046210816.png
# l0 r: Y1 v+ [ g) n& i5 a
图4说明了从当前200G板载铜连接到未来解决方案的过渡可能性,包括CPO光纤接口。* e0 u9 C5 x: U- |" Q3 `: ]3 b
; K0 i% w! i& H; C& E
比较解决方案:CPO vs 铜
7 j9 ]: [" l& v9 ~8 E$ x在比较光电共封装(CPO)解决方案与传统铜缆解决方案时,需要考虑几个关键因素:
" F2 s P( Q' b( }! v& Q, K4 H- T: R$ u3 U) z; ]1 v+ A, v
, r# K6 r, N1 m1. 密度:
* Q! l& g' }, g铜解决方案目前限于2D排列,通道间距为400微米。硅基光电子可以实现3D排列,通道间距小于50微米,使互连密度潜在地比铜高8倍。光电子技术还允许通过CWDM/DWDM等技术在每根光纤中传输多个通道,而铜线限于每根线一个通道。9 `( X) b& [: `* }6 X* i0 E8 S, u+ E
% l& B- ~" k# X1 O6 a( m! o$ W% o
2. 传输距离:
& G2 ?3 D( @1 v# [7 o铜链路在200 Gbps时限制在约1米,在400 Gbps时更短(约0.7米)。硅基光电子可以在800 Gbps的速率下实现高达500米的传输距离。" ?6 |# U I& I/ ^) H* c5 W' }
' Y3 Q; P: U. F8 A f" e
3. 机械和热挑战:
5 d! R ^* L8 \铜解决方案通常需要垂直逃逸布线,可能限制散热器面积。铜缆通常更硬更厚,使安装和维护更具挑战性。! Q8 ^1 D3 m: ^* e7 H D* M/ `" J" p
$ i: \. U3 u! K0 X" w& F* k7 s8 [
apid12vokew64046210916.png
0 D0 W% c8 q- b/ P0 G) A$ |1 g
图5展示了铜缆解决方案与CPO的比较,突出显示了在传输距离、密度和能源效率方面的差异。: H6 ~0 q: B- F! C- k
- t+ a% n8 ~0 b/ N: h: Y
结论/ s. L8 Q* `5 L
随着AI集群继续增加复杂性和规模,互连技术面临的需求变得越来越具有挑战性。传统的铜基解决方案在带宽、密度和能源效率方面正接近极限。光电共封装(CPO)作为一种有希望的解决方案出现,能够满足下一代AI计算系统的严格要求。( {+ J% M: e: F- f* P) ?, ?$ _/ }
7 l+ e: P- |/ l; @5 h, FCPO在传输距离、密度、可靠性和能源效率方面具有显著优势。可以实现最终用户针对未来AI系统所追求的高带宽密度(>1T/mm)和低功耗(0 y- C. T- {& J e) M
8 m7 `! S; M( H2 Y6 N
随着AI行业继续推动计算能力的边界,向光互连的过渡,特别是以CPO的形式,似乎不仅有益,而且必要。这种转变将使更强大、更高效和更可扩展的AI集群成为现实,为下一代人工智能应用和突破奠定基础。. w3 n$ d; @3 _2 f/ d1 q( m
$ g+ P$ G H$ Q r4 c
参考文献
% A) b" n' k; ]2 m/ W$ x5 M[1] J. Hutchins, "Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.+ L/ e1 M" l$ K( r3 D5 R- }
9 R9 I& c0 L" j' c; f( u6 HEND2 Q5 `8 T! t/ }5 D3 e- z
* B# z3 y9 m Y) b4 K
1 J K) F4 Z: P9 k! T
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。* ]4 ^5 M& S3 Y4 b$ K
点击左下角"阅读原文"马上申请! G# t/ g8 N- y# f# g3 T! C& ]& U
% X8 y" `8 V4 m& i3 j/ H
欢迎转载
' Z6 `6 Y, H1 n7 u1 _; _: M" o) d9 c/ M5 w2 p3 Z# C
转载请注明出处,请勿修改内容和删除作者信息!. _- R8 O% A- ]4 v0 f
3 n4 P1 d: p! ~ [% L% L5 M) ~1 H m+ b% ^' v
6 ^8 n: E. b4 C( E
k1s0z335ifo64046211016.gif
/ c( R. i/ r* m4 {$ O8 N
: e2 ]4 ^/ t+ E2 { w" Z% n3 B关注我们& B% g( S9 k0 p! J6 H! k
: n8 ~" a! i6 b( ]0 o
- M1 q( g2 `0 Q+ G9 s! }
5ugombznhs064046211116.png
. {6 f6 n" L6 W1 t6 s | & ?: h7 t: C( }. q% G3 I8 [9 ^
ytllk0cvjok64046211216.png
, W, b6 ~8 v, R2 W
|
* V; R/ I b8 x% Q
gps5vugazuy64046211316.png
) G& m; A' T1 j% o$ z | 1 W: W* w" |& c
; x) Y! u( ^- O- _) {+ c7 S! _
4 O( I" |! F G+ @ f( x' H. w- X3 q& z: g9 x( B' I% K8 `
关于我们:
o( y; E6 Z( R深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。0 X- s& H( Y/ F1 j2 Y8 r8 F
- r6 M3 y) [" i+ Y$ z+ H3 Bhttp://www.latitudeda.com/# c' n* k8 s0 x6 U* ^6 Z' u
(点击上方名片关注我们,发现更多精彩内容) |
|