|
引言8 [# |$ H& L3 k& S
人工智能(AI)正以惊人的速度革新科技领域。随着AI模型规模和复杂度的增长,对计算基础设施提出了极高的要求。本文探讨互连技术如何演进以应对这些挑战,确保AI系统的基础架构能够跟上创新的步伐[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!% K0 T/ o* W8 A
/ l0 p2 S1 [: b- |8 D3 R3 x9 s. ?AI模型的指数级增长
, ]0 Q) l; ]- G3 ?% G4 P) h$ J2 \要理解互连技术面临的挑战规模,首先需要了解AI模型的爆炸性增长。
' e3 v# {8 l$ c x9 A
vyp1tfrps3i64077134228.png
/ m7 F4 s5 r) N# Y图1:AI模型参数数量随时间的指数级增长,显示每年大约增长10倍。# a$ S1 \' U' \# `6 \& X% J
1 n/ Y0 ?) c" q
如图1所示,AI模型的规模(以参数数量衡量)每年增长约10倍。这一增长速度远远超过了硅技术性能的提升,后者通常遵循摩尔定律每两年翻一番。结果导致对计算能力的需求不断增加,因此需要更高效的互连技术来连接这些庞大的系统。
# \$ m5 \4 `7 }4 h% a+ H* F' N; z0 _' E+ A# p* L
硅技术的进步
6 H' b& B. O9 j* t v4 u为了应对这一挑战,芯片制造商正在推动硅技术的极限。台积电(TSMC)作为领先的半导体代工厂,在这一领域处于前沿:
* z- K1 l5 l/ N
he2wgdix0bs64077134328.png
+ B1 f* U; y5 J3 e7 ~# {' L! \
图2:台积电从5纳米到2纳米工艺节点的改进,突出了在功耗效率、性能和芯片密度方面的提升。
$ b$ U. f) m: g7 U7 `8 F% y* D0 C( u
从5纳米到2纳米工艺的过渡中,我们看到几个关键指标有显著改善:功耗效率:在相同速度下,从5纳米到2纳米,功耗降低了50%。性能:在相同功耗下,从5纳米到2纳米,性能提升了33%。芯片密度:从5纳米到2纳米,晶体管密度提高了50%。' i' _* ^. A4 D) Z
[/ol]; A) a0 l7 h, T1 T/ ?9 C) E
这些进步对满足AI系统的计算需求非常重要,使得生产更强大、更高效的芯片成为可能。然而,仅靠硅技术的改进还不足以跟上AI的需求。: p; C; r1 m; M" E- x
$ `/ y: d4 `4 v3 `6 @
先进封装技术. n4 u; L3 h' ^& ?% t7 y& [
为了充分利用这些硅技术进步,业界正转向先进的封装技术。台积电的CoWoS(晶圆上芯片上基板)技术就是一个典型例子:
, C% q# b T8 m9 o
m1thw5ndpcl64077134429.png
6 z! S+ [5 [, z( f( g
图3:台积电的CoWoS(晶圆上芯片上基板)2.5D/3D封装技术,说明了如何将多个芯片和HBM内存集成到单个封装中。5 b' D' v! R l2 V5 D
1 k6 x1 \- B2 t( C
CoWoS技术允许将多个芯片和高带宽内存(HBM)集成到单个封装中。这种方法可以实现组件之间更高的带宽,并且与传统封装方法相比,可以有效地将可用硅面积翻倍。
3 Z4 s0 K4 |9 y
! p. M4 N' W; M) P高速互连:AI性能的关键
6 z6 h b" {# Z ^为了最大化AI性能,高速互连技术必不可少。封装内和封装外接口都在快速发展以满足这些需求:封装内芯片间接口:速度达到32-64 Gbps NRZ,能量效率低于0.5 pJ/Bit。提供5到10 Terabits/mm的边缘密度,允许同一封装内芯片之间实现极高带宽的连接。封装外高速SERDES:当前技术支持224G-PAM4,448G-PAM4正在研发中。这些接口实现了低于3 pJ/Bit的能量效率,提供1到2 Terabits/mm的边缘密度,可在不同封装或板之间实现高速连接。: E6 }* I+ ?$ | a
[/ol]* O( Q( l8 f, a& c
这些高速SERDES的功耗效率也随着每一代硅工艺技术的进步而提高:
% P. Q6 z# |, s `, G6 u+ h
03tlcbxmtp264077134529.png
3 V! k2 Z% X4 M5 e R. j
图4:高速SERDES功耗效率在不同工艺节点和数据速率下的演进。
5 e* E8 n3 L* {* G+ Q) w
6 s6 v2 O% f2 |* q& y4 ?从图4可以看出,高速SERDES的能量效率随着每个新工艺节点的出现而显著提高。例如,从5纳米到2纳米的过渡预计将使200G SERDES的每比特能耗减少近一半。
2 c" s# |2 R8 D- M9 M1 B: u
* w- p# {0 h/ j: A带宽挑战6 Q+ b0 n' \" D6 B4 N
随着AI模型持续增长,互连技术的带宽需求正在飙升。为了说明这一点,让我们看看使用200G SERDES在不同基板尺寸上可能实现的带宽:
) n) G% f, e% ^$ n4 Z; d- N/ A" \
wq1jzuwokag64077134629.png
* g7 v5 N* i: ^7 n" O) L1 ^图5:使用200G SERDES在不同基板尺寸上可能实现的单向和双向带宽,从单个芯片到多芯片基板。4 h( f7 D. t* |/ f: o! E3 J
6 D9 r2 N2 S8 h( L如图5所示,使用200G SERDES,一个25x25毫米的单个芯片可能支持高达100T/200T的单向/双向带宽。扩展到100x100毫米的多芯片基板,这可能增加到惊人的400T/800T带宽。
3 M- G2 D8 Z& ` _: |
6 D6 Q0 f0 Z# P/ D向更高速互连的快速过渡
; Q+ O6 D/ L" E fAI网络行业正在快速向更高速的互连技术过渡,以满足这些带宽需求:, c1 h8 M G8 g7 w% _7 e
mqjgckzx4m164077134729.png
X. j+ v5 V) }. a) g
图6:AI网络中高速互连的快速采用,2025年800G端口将占主导地位,2027年1600G端口将成为主流。* C8 Q8 s0 \6 q* h
0 |* h* m. c# ~. g; P; E: n( p
如图6所示,AI网络行业正在快速向更高速的互连技术过渡。到2025年,800G(8x100G)端口预计将主导市场。这一趋势将继续,1600G(8x200G)端口将在2026年开始增长,并在2027年成为主导技术。6 c2 u; c( R, ~, W/ Z, X: ?1 e
# K% _) q1 m# l0 a9 F2 X2 ]9 I# Q
功耗挑战与线性光学技术
, T2 \: O/ _4 m" ^/ ^! G3 L6 u% s随着我们追求更高带宽,功耗成为关键问题。对于大型AI集群,光学器件的功耗需求可能相当可观。为了说明这一点,让我们考虑一下大规模AI集群的功耗影响:% h" c+ I4 d7 h' u
mgdrmipyafe64077134829.png
$ B) Z- S! d' }9 r- \$ O
图7:比较大型AI集群中不同光学技术的功耗,突显了LPO提供的显著功耗节省。
8 ~& i- n9 D. L! f) d* i
: X* n" k T: [+ [, n: o如图7所示,在一个拥有648个1600G端口的机架中,选择不同的光学技术会对功耗产生显著影响:$ b- J3 ]3 \8 @% K" ^
铜互连(用于短距离)消耗最少的功率。线性可插拔光学模块(LPO)与铜相比,功耗增加5.4%。线性只接收(LRO)光学技术功耗增加10.8%。数字信号处理(DSP)光学技术功耗增加16.2%。6 r/ b, {. Q0 v; T
9 \" g; d3 [; X/ T% f D当扩展到100,000个XPU(AI加速器)的集群时,功耗影响变得更加显著。这样的集群可能需要640万个1600G光学接口。使用LPO可以比DSP光学技术节省128 MW的功率 - 光学功耗降低32%。0 _7 v8 c B$ W/ l+ @
% u! L! h+ @, S6 {这些数据突显了为什么线性光学技术,特别是LPO,正成为解决AI互连功耗挑战的重要解决方案。
7 A: j9 L" W' ?: P- e8 ^. o8 M5 s; t w0 x# j) M% K: V4 d8 y% ]# G
光学互连的演进. B& S# q+ [0 @: f4 m7 h1 f
向更高效的光学互连技术的演进已经持续多年。让我们简要回顾一下光学集成的一些历史尝试:
0 _- I. `1 x" e. G: N. }/ b! B
xykbqedq1fi64077134930.png
5 R/ d: X6 J6 c: N& z图8:2010年左右的IBM Power 775系统,这是最早使用光电共封装的系统之一。
. \+ N0 J( t" F5 ]. i: L+ m
+ i- r9 v; S. E9 M图8所示的IBM Power 775是一个创新性的系统,早在2010年就采用了光电共封装技术。虽然它展示了集成光学互连的潜力,但这类技术的广泛采用一直受到可制造性和可维护性挑战的阻碍。
) p1 K( s. h/ t ?2 r! ~
& P) s* R0 @. R1 c1 e线性可插拔光学模块(LPO)的兴起
" W9 P% [1 H5 F5 ^鉴于这些挑战,业界现在正转向线性可插拔光学模块(LPO)作为更实用的解决方案。与基于DSP的光学技术相比,LPO提供了显著的功耗节省,同时保持了可插拔模块的灵活性和可维护性。
* q) S$ f5 R* t: ~8 v2 J6 Y0 b' f% R
为了加速LPO的开发和采用,十二家行业领导者组成了LPO多源协议(MSA)。这一合作旨在为线性可插拔光学模块制定规范,112G LPO MSA规范即将完成,预计将在2024年ECOC大会之前发布。/ Z0 V8 @+ j6 F
) |) X3 `$ P2 ~; X
互连技术的未来:超越112G; Q( g5 W4 V4 l/ G/ [; z0 c
虽然112G LPO即将面世,但业界已经在展望224G-PAM4 LPO。这一下一代技术面临一些挑战:' U6 D& p$ k5 `4 n. ?, G
1. 通道要求:224G LPO需要干净、低损耗的电气通道,理想情况下从芯片到模块的损耗应小于15 dB。9 ~. J9 l; M. [# {1 D
2. Fly-over Cables:为了满足这些严格的通道要求,Fly-over Cables可能会发挥关键作用。这些电缆可以显著减少通道损耗和干扰。
, B5 `7 R1 \0 ^ }) y% r
skuplzrpfgf64077135030.png
- W+ L- x+ i" R& s# t+ M
图9:Fly-over Cables的示例,包括NVLink交换机刀片到NVL72背板的连接,以及Luxshare 224 / 448G CPC互连。
# h5 G+ I7 @- L3 Z# s3 S' s$ }1 g" t
) `4 _! c7 ^* E+ u& [2 M5 _3. 高性能组件:224G LPO将需要先进的高性能跨阻放大器(TIA)和线性驱动器。许多这些组件已经在开发中。( z! c6 [; v7 H( O0 `8 F2 _
! p/ `! X" z7 g# a2 p, f1 v业界正在快速发展,预计在2025年的OFC大会上将有多家厂商展示224G-LPO。这项技术可能特别适用于网络接口卡(NIC)和AI加速器(XPU),因为这些场景中较短的电气通道使实施更为简单。/ o- m3 A# R9 `% k
; |: P% x" Z" T5 i+ h对于交换机,较长的电气通道带来了更多挑战,但模拟结果表明,使用飞越电缆可以实现224G-LPO。目前正在进行大量测试,以验证这些模拟结果并为实际部署做准备。7 t: ^9 L) h' d& C( z5 x x7 D
5 k% ~3 d0 N" y S$ w3 e& C3 c1 H! v结论
; f& v r6 `0 N. H展望AI互连技术的未来,很明显线性接口光学技术 - 包括LPO、近封装光学(NPO)和光电共封装(CPO) - 代表了前进的方向。这些技术提供了支持下一代AI系统所需的高带宽和低功耗。
2 F& h# [' i0 P/ T$ r7 \. L
3 ^3 N: e2 J6 o9 ^% h' @2 L3 L9 z在这些选项中,LPO因其性能、功耗效率和实用性的结合而脱颖而出。LPO提供了几乎所有更集成解决方案(如CPO)的功耗优势,同时避免了这些技术在制造和可维护性方面的挑战,这些挑战在过去阻碍了其广泛采用。
- F( }1 ]5 i4 _$ T5 ^0 N& o) }
' x6 k7 w% Y% G3 NAI的快速创新步伐正在推动互连技术的同步快速进步。随着我们向更快、更高效的系统迈进,硅工艺、高速接口和光学技术的创新将在塑造AI基础设施的未来中发挥关键作用。
) [/ j$ t4 b( O: Y" N: L0 p+ q) |8 I+ j, E: J1 {) R
让互连技术跟上AI指数级增长的挑战是巨大的,但业界正在迎接这一挑战。通过像LPO MSA这样的协作努力以及持续的研发,我们正在看到新一代互连技术的出现,这些技术有望释放AI系统的全部潜力。8 o, V& m! q6 \# g/ F- S
! X. X6 p5 i1 n; W; m$ I6 c; x
随着我们向前发展,很明显AI的未来不仅将由算法和计算能力的进步塑造,还将由将这些系统连接在一起的关键互连技术塑造。通过继续推动高速、低功耗互连的可能性边界,可以确保基础设施能够支持下一代AI突破。
% `* R0 D: |; b& |- S4 Z0 }! F
未来展望" k7 f3 s1 O7 c, a1 e; Y
进一步的工艺改进:随着半导体工艺继续向更小的节点发展,我们可以期待看到更高的能效和更高的集成度。这将为AI系统提供更强大的计算能力,同时保持或降低功耗。3D集成:三维集成技术可能成为未来互连技术的一个重要方向。通过垂直堆叠芯片,可以显著减少信号传输距离,提高带宽,降低延迟。新材料的应用:除了硅,其他材料如氮化镓(GaN)或碳纳米管可能在未来的互连技术中发挥重要作用,提供更高的性能和能效。光学技术的进一步集成:虽然LPO目前看来是最实用的解决方案,但长期来看,我们可能会看到更深度集成的光学解决方案,如硅基光电子技术的广泛应用。AI辅助设计:AI不仅是这些互连技术的最终用户,还可能成为设计和优化这些技术的工具。AI辅助的电子设计自动化(EDA)工具可能会加速新一代互连技术的开发。量子互连:随着量子计算的发展,量子互连技术可能成为一个新的研究方向,为未来的量子AI系统提供必要的通信基础。
) J( T3 h0 s$ O( U. |/ N[/ol]4 n4 a7 B" o1 k% N2 G3 a
参考文献5 t, s2 I' T p! l) e
[1] Bechtolsheim, "Can Interconnects Keep up with AI?," Arista Networks, Jul. 2024.
9 T. M) |* ?4 M1 s
- Q: s. r1 D$ F6 l% N7 |' K- END -
; O/ X) k3 U3 ~+ L# S! x( a2 w% N9 b, l
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
6 t! w, r7 i; l4 B2 Y4 p# t5 W点击左下角"阅读原文"马上申请
0 g$ f" c: y% |+ F& C
6 ]; q5 N! I) w, i3 I欢迎转载
. p# o( t6 k7 e
' y4 {( T5 u/ C# F5 |. Z) Y7 e转载请注明出处,请勿修改内容和删除作者信息!) T2 n0 I2 C: M3 Q) O% y. n
- v3 T8 _0 z6 `2 n* x0 z
( l# B1 S0 c6 T/ Q( g, h7 J
/ d( a5 D' [9 K2 O- ?: Y2 F+ c
5nkf3xkvxf164077135130.gif
" j2 R9 @# Q$ j3 |: U0 B( j3 ^7 i
z. a6 z& c. y J关注我们
6 ?+ m e& D! r/ X) p" |0 ~6 x/ ~2 m6 i) N1 t1 \
+ e4 I0 H" x; W! [' j3 D
qemuvwuxqwr64077135230.png
& _# [+ _. t0 g4 ]; Q |
* q+ e$ r& {4 q5 ]
dn1nffibzgg64077135331.png
/ ^$ D, M: P+ ~
|
7 R8 E* ~ P/ _) A# ]0 |: F
touqzlsyh0o64077135431.png
* Q3 M4 o" Z$ H7 \8 }
| 0 i3 D2 S, f' {4 L% }2 x) ~- A
: h( u( L0 h# [/ z0 [1 m- t$ B. {# ]' Q ^1 c
3 t& |8 S4 R1 z( J3 I关于我们:1 e ~0 O1 x/ {0 g U+ j9 ?
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
6 h# Y0 Y# q" ?1 k$ g+ `& k* C, u4 H0 n. t; p- \0 e0 d; Y' E5 `+ {
http://www.latitudeda.com/1 ^" ~0 w6 r$ G
(点击上方名片关注我们,发现更多精彩内容) |
|