|
引言
8 A8 h7 ?* Z4 m* [8 j! Y/ v人工智能(AI)正以惊人的速度革新科技领域。随着AI模型规模和复杂度的增长,对计算基础设施提出了极高的要求。本文探讨互连技术如何演进以应对这些挑战,确保AI系统的基础架构能够跟上创新的步伐[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!
5 K9 v5 e, l7 L# r. o
8 M' e7 c6 C7 q8 l/ |4 l, mAI模型的指数级增长
7 V7 h! N% F6 }7 I+ Z2 D要理解互连技术面临的挑战规模,首先需要了解AI模型的爆炸性增长。7 r" F- L2 ~2 B" U% I* \- `8 Q. Y+ s
vyp1tfrps3i64077134228.png
' O) J- ~" F5 O4 Z9 B0 J# ? t
图1:AI模型参数数量随时间的指数级增长,显示每年大约增长10倍。
8 u. T }5 A( k/ a8 K' J/ N5 r' @, i: x) [6 i+ ~: z
如图1所示,AI模型的规模(以参数数量衡量)每年增长约10倍。这一增长速度远远超过了硅技术性能的提升,后者通常遵循摩尔定律每两年翻一番。结果导致对计算能力的需求不断增加,因此需要更高效的互连技术来连接这些庞大的系统。& x3 P2 v7 C8 \0 j
, i% G# m/ b% `# F7 f
硅技术的进步' x2 b# f1 D, F5 c9 {- D* I
为了应对这一挑战,芯片制造商正在推动硅技术的极限。台积电(TSMC)作为领先的半导体代工厂,在这一领域处于前沿:, J" g2 _% k: W, t8 n* t
he2wgdix0bs64077134328.png
, n1 N) _7 e4 ~. R6 }
图2:台积电从5纳米到2纳米工艺节点的改进,突出了在功耗效率、性能和芯片密度方面的提升。
; e' q ~/ L2 m C3 \
; r% V' _' Q H) ]" N1 I0 k& E# O从5纳米到2纳米工艺的过渡中,我们看到几个关键指标有显著改善:功耗效率:在相同速度下,从5纳米到2纳米,功耗降低了50%。性能:在相同功耗下,从5纳米到2纳米,性能提升了33%。芯片密度:从5纳米到2纳米,晶体管密度提高了50%。
: d' @. q# W5 f/ P6 {$ x8 d[/ol]
[2 q8 H9 g) w4 j' B这些进步对满足AI系统的计算需求非常重要,使得生产更强大、更高效的芯片成为可能。然而,仅靠硅技术的改进还不足以跟上AI的需求。 y( O, V V' Y/ E g
+ W% M( {* ^9 C
先进封装技术
# k1 {$ I( ~, V0 [为了充分利用这些硅技术进步,业界正转向先进的封装技术。台积电的CoWoS(晶圆上芯片上基板)技术就是一个典型例子:+ I4 V: v8 p1 N9 _( u% r
m1thw5ndpcl64077134429.png
2 y! h3 R1 P0 g( |* Z7 B; F图3:台积电的CoWoS(晶圆上芯片上基板)2.5D/3D封装技术,说明了如何将多个芯片和HBM内存集成到单个封装中。' i3 F# V+ L1 c5 B1 K0 `
8 ]* W. x& Y! l9 |% i/ p) E6 [
CoWoS技术允许将多个芯片和高带宽内存(HBM)集成到单个封装中。这种方法可以实现组件之间更高的带宽,并且与传统封装方法相比,可以有效地将可用硅面积翻倍。
i: C5 ~7 a- U$ ?6 u0 j
- c4 r% ?* L3 \+ Q6 c高速互连:AI性能的关键
8 r) {4 _5 n8 ^: r9 o为了最大化AI性能,高速互连技术必不可少。封装内和封装外接口都在快速发展以满足这些需求:封装内芯片间接口:速度达到32-64 Gbps NRZ,能量效率低于0.5 pJ/Bit。提供5到10 Terabits/mm的边缘密度,允许同一封装内芯片之间实现极高带宽的连接。封装外高速SERDES:当前技术支持224G-PAM4,448G-PAM4正在研发中。这些接口实现了低于3 pJ/Bit的能量效率,提供1到2 Terabits/mm的边缘密度,可在不同封装或板之间实现高速连接。8 u. L2 c) ?* y) d
[/ol]
* [' b. `/ _0 C2 F这些高速SERDES的功耗效率也随着每一代硅工艺技术的进步而提高:2 O! Q1 j* d5 ?' O
03tlcbxmtp264077134529.png
2 Y' j$ T7 X$ Q( _% w1 T" T图4:高速SERDES功耗效率在不同工艺节点和数据速率下的演进。
- b4 v8 I4 q. M% i; p3 z. H% M7 g" z5 F( r3 }
从图4可以看出,高速SERDES的能量效率随着每个新工艺节点的出现而显著提高。例如,从5纳米到2纳米的过渡预计将使200G SERDES的每比特能耗减少近一半。
; k9 w8 X' v3 A' A, r9 n8 ~& i5 ^
( A; p1 o5 L( m/ F. u( W带宽挑战; |5 Q4 k, v/ Q$ Y- d% h: ?
随着AI模型持续增长,互连技术的带宽需求正在飙升。为了说明这一点,让我们看看使用200G SERDES在不同基板尺寸上可能实现的带宽:; _) T) R9 t" f
wq1jzuwokag64077134629.png
( C ~8 P8 L9 ]4 }) ^+ x; D/ v) {
图5:使用200G SERDES在不同基板尺寸上可能实现的单向和双向带宽,从单个芯片到多芯片基板。/ w4 N6 j, g9 K6 K2 x
# z' X' q2 S, l5 T7 g$ Z
如图5所示,使用200G SERDES,一个25x25毫米的单个芯片可能支持高达100T/200T的单向/双向带宽。扩展到100x100毫米的多芯片基板,这可能增加到惊人的400T/800T带宽。
8 e, d4 ]% W. \. n g
* L& j" u- E' {向更高速互连的快速过渡
0 P1 ~; i% m( Q2 m* h0 f5 zAI网络行业正在快速向更高速的互连技术过渡,以满足这些带宽需求:& e6 J/ K2 W6 m+ |: B- A9 g1 a
mqjgckzx4m164077134729.png
5 o5 Z7 W5 u/ D) k& W7 c2 D) s5 y图6:AI网络中高速互连的快速采用,2025年800G端口将占主导地位,2027年1600G端口将成为主流。
' i* q7 u; Y) L9 y: c
! F. J7 W* ~1 B! ?/ a- r" y9 f如图6所示,AI网络行业正在快速向更高速的互连技术过渡。到2025年,800G(8x100G)端口预计将主导市场。这一趋势将继续,1600G(8x200G)端口将在2026年开始增长,并在2027年成为主导技术。% s9 C! g' o4 v6 d! u) g/ C9 G
0 D% h$ K* V, H, C% C功耗挑战与线性光学技术4 c( B2 U5 b9 R; P
随着我们追求更高带宽,功耗成为关键问题。对于大型AI集群,光学器件的功耗需求可能相当可观。为了说明这一点,让我们考虑一下大规模AI集群的功耗影响:+ @9 v) q7 s. s/ X; E
mgdrmipyafe64077134829.png
% [/ a" k+ F$ ^' h% ~1 t( J3 P
图7:比较大型AI集群中不同光学技术的功耗,突显了LPO提供的显著功耗节省。- z! K. e! v( E r, c" d
/ c: j9 ]. u- v1 n5 O- E u3 F
如图7所示,在一个拥有648个1600G端口的机架中,选择不同的光学技术会对功耗产生显著影响:
, }. A' W2 E2 u* m# S铜互连(用于短距离)消耗最少的功率。线性可插拔光学模块(LPO)与铜相比,功耗增加5.4%。线性只接收(LRO)光学技术功耗增加10.8%。数字信号处理(DSP)光学技术功耗增加16.2%。& p3 A, S: o2 u4 M2 o4 H# I- x7 b/ y
( K& z1 L* R: k0 h9 k
当扩展到100,000个XPU(AI加速器)的集群时,功耗影响变得更加显著。这样的集群可能需要640万个1600G光学接口。使用LPO可以比DSP光学技术节省128 MW的功率 - 光学功耗降低32%。 q! Q5 P' a0 n/ L
8 }! {+ j6 J: [5 Z r. _% h
这些数据突显了为什么线性光学技术,特别是LPO,正成为解决AI互连功耗挑战的重要解决方案。
3 [' B4 M7 Z; W
9 w3 x9 w, o6 m. `6 b% {9 f y光学互连的演进
5 G1 D k' z: B向更高效的光学互连技术的演进已经持续多年。让我们简要回顾一下光学集成的一些历史尝试:
( A0 F& M% M& e- U( r
xykbqedq1fi64077134930.png
2 a! Z: `' K: n4 i2 [图8:2010年左右的IBM Power 775系统,这是最早使用光电共封装的系统之一。
& d" J( ~7 Q L; @. d! t( ^
% E' u! k! v) G' W+ i' l图8所示的IBM Power 775是一个创新性的系统,早在2010年就采用了光电共封装技术。虽然它展示了集成光学互连的潜力,但这类技术的广泛采用一直受到可制造性和可维护性挑战的阻碍。) k$ j$ i7 X6 v6 T$ d% b# V& p
t- ~! M2 X" {/ F* k2 ~/ Y线性可插拔光学模块(LPO)的兴起
3 F) D5 @5 d/ C/ u* V. v# k) X: a鉴于这些挑战,业界现在正转向线性可插拔光学模块(LPO)作为更实用的解决方案。与基于DSP的光学技术相比,LPO提供了显著的功耗节省,同时保持了可插拔模块的灵活性和可维护性。
; X% b; B" G+ d+ \& ^: r
5 X9 P: g* P- G0 X# G, j为了加速LPO的开发和采用,十二家行业领导者组成了LPO多源协议(MSA)。这一合作旨在为线性可插拔光学模块制定规范,112G LPO MSA规范即将完成,预计将在2024年ECOC大会之前发布。
6 B/ S) `- K) T- f. S* d" N, E2 ]6 v6 ?3 u' p! J
互连技术的未来:超越112G
; a e/ K9 P" v! A9 a% r- K8 I$ o虽然112G LPO即将面世,但业界已经在展望224G-PAM4 LPO。这一下一代技术面临一些挑战:9 }) y4 v* x) |- t4 ^9 [
1. 通道要求:224G LPO需要干净、低损耗的电气通道,理想情况下从芯片到模块的损耗应小于15 dB。
; V6 ^, D2 `7 w8 Q8 v2. Fly-over Cables:为了满足这些严格的通道要求,Fly-over Cables可能会发挥关键作用。这些电缆可以显著减少通道损耗和干扰。7 A' m ~8 t" o, g% W# p
skuplzrpfgf64077135030.png
4 F6 R/ F" {0 O
图9:Fly-over Cables的示例,包括NVLink交换机刀片到NVL72背板的连接,以及Luxshare 224 / 448G CPC互连。
" g/ R' [) U2 }/ F' Z( H" K( n- t
' z) g7 G; ~4 G& ^1 K+ R1 M3. 高性能组件:224G LPO将需要先进的高性能跨阻放大器(TIA)和线性驱动器。许多这些组件已经在开发中。
% h# B# B) w+ }( g: V% x0 g3 D1 T' G6 @0 q/ p# o9 ^: m0 v
业界正在快速发展,预计在2025年的OFC大会上将有多家厂商展示224G-LPO。这项技术可能特别适用于网络接口卡(NIC)和AI加速器(XPU),因为这些场景中较短的电气通道使实施更为简单。; Q7 S' B6 [/ ~; w( ?; O
! P/ \& q) w9 |* ^
对于交换机,较长的电气通道带来了更多挑战,但模拟结果表明,使用飞越电缆可以实现224G-LPO。目前正在进行大量测试,以验证这些模拟结果并为实际部署做准备。: U0 a6 z* J! I/ y* H4 v8 h& g( J
- J5 s" K7 y: y6 b4 W; s
结论2 B6 o- ^" c/ m! p# M
展望AI互连技术的未来,很明显线性接口光学技术 - 包括LPO、近封装光学(NPO)和光电共封装(CPO) - 代表了前进的方向。这些技术提供了支持下一代AI系统所需的高带宽和低功耗。
1 R+ W7 H$ R; D8 r5 d$ Y; E) @6 P I7 `% s& ]
在这些选项中,LPO因其性能、功耗效率和实用性的结合而脱颖而出。LPO提供了几乎所有更集成解决方案(如CPO)的功耗优势,同时避免了这些技术在制造和可维护性方面的挑战,这些挑战在过去阻碍了其广泛采用。# Q. W; ?. X+ j+ ?" Z
% f1 X8 w4 C+ E9 n, {
AI的快速创新步伐正在推动互连技术的同步快速进步。随着我们向更快、更高效的系统迈进,硅工艺、高速接口和光学技术的创新将在塑造AI基础设施的未来中发挥关键作用。1 [3 E2 P) M( ]% {/ `. O+ ]& F
' q' r; _' S4 P; U
让互连技术跟上AI指数级增长的挑战是巨大的,但业界正在迎接这一挑战。通过像LPO MSA这样的协作努力以及持续的研发,我们正在看到新一代互连技术的出现,这些技术有望释放AI系统的全部潜力。7 j. l" K( H a( W' t
: ]! b0 ]0 n5 _7 j7 G2 _& J f. N随着我们向前发展,很明显AI的未来不仅将由算法和计算能力的进步塑造,还将由将这些系统连接在一起的关键互连技术塑造。通过继续推动高速、低功耗互连的可能性边界,可以确保基础设施能够支持下一代AI突破。) |: o, z6 J. ?1 B0 L6 E
9 X+ H3 W' l; W- g$ W& `5 O. I未来展望8 ^' ?+ W2 d6 ^( C) P9 D2 C! f0 v9 S4 v
进一步的工艺改进:随着半导体工艺继续向更小的节点发展,我们可以期待看到更高的能效和更高的集成度。这将为AI系统提供更强大的计算能力,同时保持或降低功耗。3D集成:三维集成技术可能成为未来互连技术的一个重要方向。通过垂直堆叠芯片,可以显著减少信号传输距离,提高带宽,降低延迟。新材料的应用:除了硅,其他材料如氮化镓(GaN)或碳纳米管可能在未来的互连技术中发挥重要作用,提供更高的性能和能效。光学技术的进一步集成:虽然LPO目前看来是最实用的解决方案,但长期来看,我们可能会看到更深度集成的光学解决方案,如硅基光电子技术的广泛应用。AI辅助设计:AI不仅是这些互连技术的最终用户,还可能成为设计和优化这些技术的工具。AI辅助的电子设计自动化(EDA)工具可能会加速新一代互连技术的开发。量子互连:随着量子计算的发展,量子互连技术可能成为一个新的研究方向,为未来的量子AI系统提供必要的通信基础。4 S8 l0 c1 y$ t! W3 Q
[/ol]9 G; X( q) t) l9 r, Z a D
参考文献
1 v& |: x- U2 P# z. a[1] Bechtolsheim, "Can Interconnects Keep up with AI?," Arista Networks, Jul. 2024. g7 w3 I& K- B3 w* ?. l
7 O Y) B/ U3 @& l- END -7 d& q5 |' T- ]2 _* R, e' e
. y' B% H8 H! k8 G: @. G' \' e2 D软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。4 t4 I; r& s7 k Z, z
点击左下角"阅读原文"马上申请7 u- g- u# ~& l& r/ D, v' j6 ]
; Z0 E' z6 L# t6 t
欢迎转载- U5 o+ e+ ^ T) A5 j
" e/ p/ r! n1 o9 x P+ W
转载请注明出处,请勿修改内容和删除作者信息!! ~$ l0 \$ D- e
/ O/ V! ], z \* M, b6 A
+ [/ R6 E9 f5 V0 ^- N ^. W2 d5 \$ Z' r( R! u! c$ G' z
5nkf3xkvxf164077135130.gif
6 e% r; l) W( H" l6 ?; Q8 x
) x; O, `, F; t* r0 x关注我们
: c1 g: r' @4 D4 @( Q/ P8 w7 f/ p1 }1 p" e4 L* C! W" Q) ]/ ]
+ p. c) x3 M1 J4 b9 X. j
qemuvwuxqwr64077135230.png
0 T5 i2 R: x! o
|
! v$ |3 I1 z& x' n0 T
dn1nffibzgg64077135331.png
( N* V# P( A% ?: n
| ! x. E. h* m, `4 ?& V2 V$ k
touqzlsyh0o64077135431.png
. W8 C, P1 q$ {/ Y9 u% G9 A2 m
|
% |" B* b# w" y3 H
5 ^/ ^5 {$ y. {8 {' Z/ {. O9 g" T6 l* b$ W t+ e
. f5 X' [) q8 L* I; G: A关于我们:6 X: H" }: U3 e$ E+ Q6 ~
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。0 W8 j( V7 d" O
+ a4 t6 n% \; U7 N7 }http://www.latitudeda.com/2 s2 _) H1 `' b
(点击上方名片关注我们,发现更多精彩内容) |
|