|
引言
# e# A7 L, @& D* C人工智能(AI)正以惊人的速度革新科技领域。随着AI模型规模和复杂度的增长,对计算基础设施提出了极高的要求。本文探讨互连技术如何演进以应对这些挑战,确保AI系统的基础架构能够跟上创新的步伐[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!& Z8 F7 V# n" t7 W ]& B
' m, a) E; G h2 ~
AI模型的指数级增长
2 Z9 J$ P% Y/ t* A* Y: h: _3 v要理解互连技术面临的挑战规模,首先需要了解AI模型的爆炸性增长。
% t4 J% a4 i; T* |9 e# Y
vyp1tfrps3i64077134228.png
! k1 E* ]; v% \图1:AI模型参数数量随时间的指数级增长,显示每年大约增长10倍。
, C7 ?1 x! G5 z3 O3 U( j5 j
6 \) n1 N% \. s% d4 a9 X如图1所示,AI模型的规模(以参数数量衡量)每年增长约10倍。这一增长速度远远超过了硅技术性能的提升,后者通常遵循摩尔定律每两年翻一番。结果导致对计算能力的需求不断增加,因此需要更高效的互连技术来连接这些庞大的系统。
) l6 |9 p3 V; [$ p0 `3 [+ e+ H/ ^. H2 c2 o' N3 C
硅技术的进步
- k2 _. R# J! `6 o. S为了应对这一挑战,芯片制造商正在推动硅技术的极限。台积电(TSMC)作为领先的半导体代工厂,在这一领域处于前沿:4 x# V( r4 \ ^4 s* S
he2wgdix0bs64077134328.png
. Q2 I/ F, b) M$ \" \' E2 _图2:台积电从5纳米到2纳米工艺节点的改进,突出了在功耗效率、性能和芯片密度方面的提升。
8 Z1 Y" w) O, e3 D, j ]& m7 r/ K; k. y+ i
从5纳米到2纳米工艺的过渡中,我们看到几个关键指标有显著改善:功耗效率:在相同速度下,从5纳米到2纳米,功耗降低了50%。性能:在相同功耗下,从5纳米到2纳米,性能提升了33%。芯片密度:从5纳米到2纳米,晶体管密度提高了50%。
* X7 a' D( A7 j( D[/ol]
* i: F( J2 [' P9 N这些进步对满足AI系统的计算需求非常重要,使得生产更强大、更高效的芯片成为可能。然而,仅靠硅技术的改进还不足以跟上AI的需求。 A/ ^3 \; Y0 }8 c1 d
, d O8 L6 o7 w6 Q5 q
先进封装技术, L6 k4 Q5 }5 p1 K! w( X
为了充分利用这些硅技术进步,业界正转向先进的封装技术。台积电的CoWoS(晶圆上芯片上基板)技术就是一个典型例子:: [2 H. Z: _: ~7 n2 O( p) g7 o$ B I
m1thw5ndpcl64077134429.png
1 a0 \" |7 g. u! C$ j: A图3:台积电的CoWoS(晶圆上芯片上基板)2.5D/3D封装技术,说明了如何将多个芯片和HBM内存集成到单个封装中。1 Y( S2 V2 ^9 v: M9 o' T0 C+ \
( d1 c2 r8 C1 Z8 }& ?! o' [
CoWoS技术允许将多个芯片和高带宽内存(HBM)集成到单个封装中。这种方法可以实现组件之间更高的带宽,并且与传统封装方法相比,可以有效地将可用硅面积翻倍。9 {7 P0 w$ Y5 q: [
+ @$ [# n4 n# H! Q高速互连:AI性能的关键
3 g$ z) f( Z. _# j6 X$ I; A为了最大化AI性能,高速互连技术必不可少。封装内和封装外接口都在快速发展以满足这些需求:封装内芯片间接口:速度达到32-64 Gbps NRZ,能量效率低于0.5 pJ/Bit。提供5到10 Terabits/mm的边缘密度,允许同一封装内芯片之间实现极高带宽的连接。封装外高速SERDES:当前技术支持224G-PAM4,448G-PAM4正在研发中。这些接口实现了低于3 pJ/Bit的能量效率,提供1到2 Terabits/mm的边缘密度,可在不同封装或板之间实现高速连接。
6 {& I4 F: u( _, k |[/ol]* {$ k! e6 {& e* j' E3 B( D
这些高速SERDES的功耗效率也随着每一代硅工艺技术的进步而提高:& M6 P, \. Z3 }+ n* p4 E; l
03tlcbxmtp264077134529.png
# z/ u2 I; k. l图4:高速SERDES功耗效率在不同工艺节点和数据速率下的演进。/ Z" L' ~/ T6 `$ W
& L' }" q: n+ b" S( s0 I+ h4 g
从图4可以看出,高速SERDES的能量效率随着每个新工艺节点的出现而显著提高。例如,从5纳米到2纳米的过渡预计将使200G SERDES的每比特能耗减少近一半。
/ B) G- a2 ]. B2 k
3 z% |7 K3 h# \' `. \6 s" I6 x; ?带宽挑战
' f6 {) g% I5 {) i% a- ^6 D随着AI模型持续增长,互连技术的带宽需求正在飙升。为了说明这一点,让我们看看使用200G SERDES在不同基板尺寸上可能实现的带宽:; E& {4 y$ U5 K; Z" h Z. [
wq1jzuwokag64077134629.png
& P, R( U, N+ n" E$ a
图5:使用200G SERDES在不同基板尺寸上可能实现的单向和双向带宽,从单个芯片到多芯片基板。
; D3 W# S% U% O7 X3 s
; @2 u3 F5 I& P" y0 K如图5所示,使用200G SERDES,一个25x25毫米的单个芯片可能支持高达100T/200T的单向/双向带宽。扩展到100x100毫米的多芯片基板,这可能增加到惊人的400T/800T带宽。9 z) m" H: s( `; d& w
: B- [% ` C9 S) i6 O4 m向更高速互连的快速过渡
) _$ `) F6 M8 p- oAI网络行业正在快速向更高速的互连技术过渡,以满足这些带宽需求:3 D- F. @1 F: R' f W- J1 x
mqjgckzx4m164077134729.png
; H- r& p) ?/ {+ }3 R: D8 W {& P图6:AI网络中高速互连的快速采用,2025年800G端口将占主导地位,2027年1600G端口将成为主流。
! v9 a, b2 j* j8 r' E( T% u
' O \. I% i' \, T% e! {" o如图6所示,AI网络行业正在快速向更高速的互连技术过渡。到2025年,800G(8x100G)端口预计将主导市场。这一趋势将继续,1600G(8x200G)端口将在2026年开始增长,并在2027年成为主导技术。6 ~' ^2 f0 Y6 E6 R1 I7 i( b" H
& e: s' R5 g/ e& a
功耗挑战与线性光学技术( I8 T% S4 r1 h( M) I0 k% U
随着我们追求更高带宽,功耗成为关键问题。对于大型AI集群,光学器件的功耗需求可能相当可观。为了说明这一点,让我们考虑一下大规模AI集群的功耗影响:
1 H0 Q( V! Q, j
mgdrmipyafe64077134829.png
, x( o: |6 {$ ~# Q
图7:比较大型AI集群中不同光学技术的功耗,突显了LPO提供的显著功耗节省。4 Q4 ~0 s& {9 C7 v/ D( B0 Q
- O6 I1 S! A, r1 ^, J
如图7所示,在一个拥有648个1600G端口的机架中,选择不同的光学技术会对功耗产生显著影响:$ e* [+ {, z- @" D" V( ^* u9 a
铜互连(用于短距离)消耗最少的功率。线性可插拔光学模块(LPO)与铜相比,功耗增加5.4%。线性只接收(LRO)光学技术功耗增加10.8%。数字信号处理(DSP)光学技术功耗增加16.2%。
7 z8 J% z+ @: l3 u8 T# M g2 H! t* O( p6 F8 E4 [/ H8 M, {
当扩展到100,000个XPU(AI加速器)的集群时,功耗影响变得更加显著。这样的集群可能需要640万个1600G光学接口。使用LPO可以比DSP光学技术节省128 MW的功率 - 光学功耗降低32%。2 W$ \9 r( h" e- Z$ ?
% G- ?& \7 T0 k/ Q% \: ]. Y这些数据突显了为什么线性光学技术,特别是LPO,正成为解决AI互连功耗挑战的重要解决方案。) {1 p( U5 J) g6 @* O1 p+ D
; Q* u7 I' a9 @光学互连的演进
: o: `5 Y% p( y" O向更高效的光学互连技术的演进已经持续多年。让我们简要回顾一下光学集成的一些历史尝试:
- R1 _5 m* }! z [
xykbqedq1fi64077134930.png
5 B+ j! Y2 n" @/ c2 ^6 I
图8:2010年左右的IBM Power 775系统,这是最早使用光电共封装的系统之一。. \+ t. G. U' U& S o( T
* W1 a9 `% c/ g: b图8所示的IBM Power 775是一个创新性的系统,早在2010年就采用了光电共封装技术。虽然它展示了集成光学互连的潜力,但这类技术的广泛采用一直受到可制造性和可维护性挑战的阻碍。3 A. O$ j ~* u) z7 ^5 Z6 U+ l6 g
0 `" ?4 |0 j$ g2 V
线性可插拔光学模块(LPO)的兴起
9 ^. H& _; m9 {1 i7 u# r! z, A- @鉴于这些挑战,业界现在正转向线性可插拔光学模块(LPO)作为更实用的解决方案。与基于DSP的光学技术相比,LPO提供了显著的功耗节省,同时保持了可插拔模块的灵活性和可维护性。
# q- T7 q, x# K) P8 h
9 `, R. i) {! L/ L/ ?4 M& W为了加速LPO的开发和采用,十二家行业领导者组成了LPO多源协议(MSA)。这一合作旨在为线性可插拔光学模块制定规范,112G LPO MSA规范即将完成,预计将在2024年ECOC大会之前发布。
1 F* ^' E# x( j$ p% F! R9 _8 S; k% s" t, w6 q/ ~6 t
互连技术的未来:超越112G4 C9 }! j1 D3 x. z! P% X( o
虽然112G LPO即将面世,但业界已经在展望224G-PAM4 LPO。这一下一代技术面临一些挑战:) F! o$ _7 ]7 r6 M/ t
1. 通道要求:224G LPO需要干净、低损耗的电气通道,理想情况下从芯片到模块的损耗应小于15 dB。& o& H& Q# p+ m3 ?6 ?& _* F7 c$ W/ |
2. Fly-over Cables:为了满足这些严格的通道要求,Fly-over Cables可能会发挥关键作用。这些电缆可以显著减少通道损耗和干扰。
* ]6 C4 T: Z' i& J/ C. ^1 o- C
skuplzrpfgf64077135030.png
5 u. w( O! F/ t' W, b1 ^
图9:Fly-over Cables的示例,包括NVLink交换机刀片到NVL72背板的连接,以及Luxshare 224 / 448G CPC互连。; w! O! c& @+ H: K! {" ~! t, n
$ }! y1 _3 B+ Q& a: `3. 高性能组件:224G LPO将需要先进的高性能跨阻放大器(TIA)和线性驱动器。许多这些组件已经在开发中。
- \9 ~- z% W# E o' D0 a8 O$ ]
7 k4 b1 o/ c9 l1 f7 X( u- F业界正在快速发展,预计在2025年的OFC大会上将有多家厂商展示224G-LPO。这项技术可能特别适用于网络接口卡(NIC)和AI加速器(XPU),因为这些场景中较短的电气通道使实施更为简单。
$ F" x: J: p& q
; B6 l* P) ]) X( I2 x! |2 d对于交换机,较长的电气通道带来了更多挑战,但模拟结果表明,使用飞越电缆可以实现224G-LPO。目前正在进行大量测试,以验证这些模拟结果并为实际部署做准备。
. `& l+ s, ^# M* j$ P- X8 ]) ^& H" H# t! h$ _( x: B# n2 ?
结论
* R7 h7 r% a8 t/ T' W5 \& r% R% I展望AI互连技术的未来,很明显线性接口光学技术 - 包括LPO、近封装光学(NPO)和光电共封装(CPO) - 代表了前进的方向。这些技术提供了支持下一代AI系统所需的高带宽和低功耗。% g7 I1 C* F8 c. t/ Z
7 t- |4 t: j. D, i1 [5 t; X在这些选项中,LPO因其性能、功耗效率和实用性的结合而脱颖而出。LPO提供了几乎所有更集成解决方案(如CPO)的功耗优势,同时避免了这些技术在制造和可维护性方面的挑战,这些挑战在过去阻碍了其广泛采用。
9 B) l3 _& S, s& m j7 [
0 t: e+ I5 i: F% _" C! c" lAI的快速创新步伐正在推动互连技术的同步快速进步。随着我们向更快、更高效的系统迈进,硅工艺、高速接口和光学技术的创新将在塑造AI基础设施的未来中发挥关键作用。
5 ]9 l2 D ?0 i& ^, u5 K, p# U- B& n- O6 Y7 L" A& \5 R
让互连技术跟上AI指数级增长的挑战是巨大的,但业界正在迎接这一挑战。通过像LPO MSA这样的协作努力以及持续的研发,我们正在看到新一代互连技术的出现,这些技术有望释放AI系统的全部潜力。
; G$ z" t, O& D: d2 |
" P8 Z! ]" ~, k% e! j随着我们向前发展,很明显AI的未来不仅将由算法和计算能力的进步塑造,还将由将这些系统连接在一起的关键互连技术塑造。通过继续推动高速、低功耗互连的可能性边界,可以确保基础设施能够支持下一代AI突破。( H2 q: \( b9 E% `( _
l9 g1 Z, W; r( I
未来展望 x) G" l: m# j% {; f" m
进一步的工艺改进:随着半导体工艺继续向更小的节点发展,我们可以期待看到更高的能效和更高的集成度。这将为AI系统提供更强大的计算能力,同时保持或降低功耗。3D集成:三维集成技术可能成为未来互连技术的一个重要方向。通过垂直堆叠芯片,可以显著减少信号传输距离,提高带宽,降低延迟。新材料的应用:除了硅,其他材料如氮化镓(GaN)或碳纳米管可能在未来的互连技术中发挥重要作用,提供更高的性能和能效。光学技术的进一步集成:虽然LPO目前看来是最实用的解决方案,但长期来看,我们可能会看到更深度集成的光学解决方案,如硅基光电子技术的广泛应用。AI辅助设计:AI不仅是这些互连技术的最终用户,还可能成为设计和优化这些技术的工具。AI辅助的电子设计自动化(EDA)工具可能会加速新一代互连技术的开发。量子互连:随着量子计算的发展,量子互连技术可能成为一个新的研究方向,为未来的量子AI系统提供必要的通信基础。
9 v% o, _8 [& {+ ]1 z. H l[/ol]; n' ]7 V1 @) E; R$ x
参考文献
k* c* A& j2 C" ?[1] Bechtolsheim, "Can Interconnects Keep up with AI?," Arista Networks, Jul. 2024.
7 _9 T5 S6 D7 `0 g: J( }) O
; ^7 Y+ |- Y) ~: k3 ~# p$ z0 U- END -# k% }& T' ]* O
7 g6 W- s M( ~; b2 C软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。 Y' Z; k0 O+ M
点击左下角"阅读原文"马上申请+ V f; D+ _4 r8 s; r
0 [( I0 o7 e, R8 v! c+ ~欢迎转载
2 J( e- [7 F4 I: s; N5 ? `( x1 t1 s& j
转载请注明出处,请勿修改内容和删除作者信息!
% q7 ?0 i# i# U5 q9 c; a. H4 {& s# b# N( ]
4 x: e9 c' D% j7 Y
( `5 a. @7 s1 r* z+ M( E
5nkf3xkvxf164077135130.gif
' g! e" H) b7 V8 u9 g0 L" \. C3 R/ o, P
关注我们/ y9 ^- R( O8 _4 |4 }, d; l' k
' O0 Z9 P6 I) B5 A/ g
5 p/ q" b+ \, q, R b
qemuvwuxqwr64077135230.png
" u& I/ U4 m3 S4 B: s3 S3 Z
| ( L8 Y4 g4 J" w1 B+ g% n
dn1nffibzgg64077135331.png
) e0 v/ s* B* \: H; K7 {. I' q
|
* a2 I: G n8 x# Z) T' j
touqzlsyh0o64077135431.png
4 t6 @! z( M( x" ` | | & C \( J( r5 C8 N# n5 v
6 a/ H, S9 c4 Z' z' Z* }; E. D1 e( w
. v! Y! @: D+ F4 q
% S! E/ U$ W& G o关于我们:) x& ^. V% J/ R+ Y# o& U* A
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
6 d2 j8 w7 ~: q4 v# x7 @5 c. ]- c9 X: {7 Y
http://www.latitudeda.com/
0 `3 c% t$ B, W) l. X(点击上方名片关注我们,发现更多精彩内容) |
|