电子产业一站式赋能平台

PCB联盟网

搜索
查看: 94|回复: 0
收起左侧

Ranovus | 人工智能集群中光连接的特殊要求

[复制链接]

864

主题

864

帖子

8156

积分

高级会员

Rank: 5Rank: 5

积分
8156
发表于 2024-11-29 08:01:00 | 显示全部楼层 |阅读模式
引言9 |9 i# p! @! v! t8 `
人工智能(AI)已成为现代技术的基石,推动着各个领域的创新。随着AI模型日益复杂和规模化,对更强大、更高效的计算系统的需求也在不断增加。在这些先进的AI系统中,组件之间的互连性是一个关键方面,尤其是在AI集群中。本文探讨了AI集群中光连接的特殊要求,重点关注下一代AI计算架构的挑战和潜在解决方案[1]。/ H7 t+ t( e- x& M' M

lzyar5xasm264046210415.png

lzyar5xasm264046210415.png

( i$ E  p- R" h( u8 Q" d5 V# j$ a/ B2 O8 A$ {1 O% u, G7 G- X* z
理解AI计算链路
6 \) W" A, e; l8 C在AI集群中,不同类型的链路连接着系统的各个组件。可以根据功能、距离和性能要求对这些链路进行分类。( l+ S- V% f0 Y4 T4 k

lfrovmpio1f64046210515.png

lfrovmpio1f64046210515.png
( @. ~% j. C. \2 i, G+ v5 p& _
图1展示了AI计算架构的示例,突出显示了不同类型的链路,包括前端网络、后端计算和本地加速器互连。3 _; i" T8 B/ [& R! v, N& W

! a7 [. }+ N* E, s3 V  d  ]8 bAI集群中的关键链路包括:
2 ?" B/ b5 z( {9 ?/ ?. O1. 远程加速器链路:这些连接跨越100米或更长的距离,通常使用以太网(UEC)或InfiniBand协议。由于涉及的距离较长,已经在使用光技术。6 {  s1 `7 @  y+ [, X3 T# r& B
2. 本地加速器链路:覆盖1.5米或更长的距离(未来可能减少到10米以下),目前使用PCIe、CXL、UALink或NVLink等协议。主要基于铜线,但正在开始向光解决方案过渡。: P7 K( y$ l7 ~1 ?+ O  E
3. 高带宽内存(HBM)链路:这些是非常短距离的连接(约1厘米),使用HBM3或HBM3E等协议。需要极宽的接口,对延迟非常敏感。/ \: Q- T6 a" l4 {1 ]
6 Y) K) o. g4 _: x
本地加速器链路:创新的焦点- J$ f5 v+ y2 v# w
本文主要关注本地加速器链路,因为在AI集群中,这些链路呈现出独特的挑战和改进机会。
0 E; B$ q# y1 f8 M3 R2 n& G, G$ ~5 i+ q
本地加速器链路的现状3 e: k5 q. L7 B1 J* f

jmhhmfyhsrf64046210616.png

jmhhmfyhsrf64046210616.png

1 t- ^+ [9 F: O" h4 |图2描绘了当前最先进的系统,使用200G的铜基连接,显示了扩展电缆和NVLINK交换卡。# Q7 c. t3 x& c0 P4 n

. |) f) E, ^) A' t最先进的AI系统目前在本地加速器链路中采用200G的铜基连接。机架内连接是无源的,有助于降低功耗和延迟。然而,随着AI系统的不断发展,需要至少将互连带宽翻倍,同时延长传输距离并连接更多的加速器。8 E$ T' w' l# _- `, I5 H! @8 ]: Z

- a1 Q' w0 s2 b$ `3 f7 _% a例如,当前系统可能具有:
% d: V5 f; k3 u( ]& X9 ^' {! s
  • 每个GPU 72个数据路径
  • 每个GPU 7.2 Tbps带宽
  • 每个机架5,184个数据路径
    6 @! Z6 a5 }# Q; s/ w" O9 Y7 k
    ( K% S. x7 b' F, z' ?
    未来的GPU预计需要:. _$ w: ]& \" n/ @( k
  • 每个GPU 51.2 Tbps
  • 每个系统72个GPU
  • 每个GPU 512个数据路径,速率为200G(发送和接收)
  • 每个机架36,864个数据路径
    , r' O2 J  i: e" d, F
    + v" \) v- o" d
    这种带宽和连接需求的显著增加对铜基解决方案构成了挑战,可能难以高效满足。# f, h: {; y7 `
    , v8 Q4 V6 }+ I/ e; g# m7 ^: J
    本地加速器链路的特殊特性
    * P5 P: Q+ H4 a  g本地加速器链路具有独特的特性,使其区别于AI集群中的其他类型连接:
    6 D) @- |" X9 @, {4 c3 v
    ! _$ x7 N& j: n8 ^: ~" @
    , v4 i) t  ]( R' ~0 y/ m1 t6 S7 b
    1. 协议适应:大多数本地加速器链路基于PCIe协议,该协议最初是为铜连接设计的。将此协议适应光链路需要解决几个挑战:
    ( k. a' `. Z5 H6 Y! D2 h: o修改接收器检测、侧带、电气空闲、超时、低频信号和扩频时钟等方面。7 m! o% ^% V' i1 D" ?# i5 i5 Q" o
    业界采取两步法:首先保持向后兼容性,然后定义一个适合光的协议。
    3 d) J9 `4 Z6 C) [, M1 V, y" J
    8 o. m) [* @) t9 g" w2. 更严格的比特错误率(BER)要求:本地加速器链路要求最大帧错误率(FBER)小于1e-6,比典型的以太网要求更严格。然而,这可以通过当今的集成光技术实现。
    0 t8 h( o2 D! e0 F
    : a: d- J# a, E# a0 e- {' G- _9 E3. 严格的延迟和功耗效率目标:这些链路需要满足非常苛刻的延迟和功耗效率要求。前面提到的"第二步"协议旨在解决这些需求。
      |6 n* B8 n5 n6 L  @7 _7 B' f$ V- {8 |3 L2 u" p
    4. 互操作性和可扩展性:确保不同组件之间的互操作性以及支持具有高基数(端口数)的大型集群很重要。
    - Q: j: A' ^4 I

    4xosdnfmhvq64046210716.png

    4xosdnfmhvq64046210716.png

    ( z9 o$ u" w0 B' R3 n$ g" v- U图3显示了PCIe协议向光链路演进的过程,说明了当前的铜基方法和两个步骤朝向适合光的协议发展。8 U  _. n0 f8 T/ z& p
    # P. Q7 _, r2 L- M' D1 Y# n
    硬件可靠性考虑1 Y; {# Z1 T; F$ ?1 I1 B5 n
    可靠性是AI集群设计中的一个关键因素,特别是对于本地加速器互连。业界通常使用Telcordia SR-322标准作为预测可靠性的基础。" N7 z$ ]6 ]$ o2 J1 t# m

    ( L* L! N% A3 }/ Y+ `) h: q3 y关于硬件可靠性的要点:) k$ n9 w; k% _; G9 g8 K
    1. 故障率预测:可靠性通常分为三个阶段:早期故障、随机故障和老化故障。重点是在系统运行寿命期间最小化随机故障。( l/ V! M' i7 |) g* r% x- J
    / J- K# J" r& h* m1 f
    # ^/ ?0 Z, Q4 j/ J* x% d; w1 G' A( Y2 e
    2. 集成解决方案:高度集成的IC解决方案预计更可靠。这一原则预计也适用于基于硅的光电集成芯片(SI-EPICs)。: X& V5 r5 {& l

    , x; C, ^  D# i3 U4 i
    8 ^% C  |3 M6 Q# k! e6 U  C
    3. 激光器可靠性:激光器是光系统中的关键组件。激光器的最佳随机故障率约为1 FIT(每十亿器件小时一次故障)。  p5 s5 t% A1 X" ^

    9 y' _7 |; `% H) D+ A% U

    9 \# A. z" q- m$ B4 U' W( P4. 集成策略:激光器可以集成在可插拔模块中(如OIF的ELSFP形状因子)以便于更换,或直接集成冗余以实现极低的故障率。9 g2 q2 ^5 Y1 U9 c
    ( b: @6 _0 m9 F4 w' ~3 H2 ?
    关键结论是,只有高度集成的光电子解决方案,通常称为光电共封装(CPO),才可能满足AI计算系统本地光互连的严格硬件可靠性要求。
    1 U) W' n7 @/ H6 \' C! G" N
    " b( G' s6 K& ^" R向更高容量过渡
    , P8 t7 ^  t! L1 n) D- ?; o; ^+ n2 i随着AI系统对带宽的需求不断增加,有几种潜在的路径可以实现容量翻倍:
    ( `  M1 x- \2 z1 a2 R
    ; g. p& u6 p, ~
    0 W* p. i( [0 Y% h
    1. 升级到400G电气链路:这种方法涉及从200G转移到400G电气链路。然而,这种转变预计会减少传输距离,并对功耗和延迟产生负面影响。: b8 B) O  C" [; s' W
    1 \* {9 A' r: j" T' n3 |

    # k$ R: d6 O/ O! ^3 w4 G2. 双通道200G链路:另一种选择是继续使用200G信号,但每个链路使用两个电气通道。这种方法需要更多的连接器面积,在密集封装的系统中可能成为限制因素。" m  {8 v3 e9 ?1 ]

    8 }0 {, W; N& P/ M  L6 U5 _% z- k" s

    7 i" `# f" m, Y& G3 y: {3. 过渡到使用CPO的光链路:光电共封装为下一代系统提供了所需的更高密度,是一个有希望的解决方案。. ]9 O: P/ o: p& ?( D/ L

    chfeln5c2bt64046210816.png

    chfeln5c2bt64046210816.png
    # l0 r: Y1 v+ [  g) n& i5 a
    图4说明了从当前200G板载铜连接到未来解决方案的过渡可能性,包括CPO光纤接口。* e0 u9 C5 x: U- |" Q3 `: ]3 b
    ; K0 i% w! i& H; C& E
    比较解决方案:CPO vs 铜
    7 j9 ]: [" l& v9 ~8 E$ x在比较光电共封装(CPO)解决方案与传统铜缆解决方案时,需要考虑几个关键因素:
    " F2 s  P( Q' b( }! v& Q, K4 H- T: R$ u3 U) z; ]1 v+ A, v

    , r# K6 r, N1 m1. 密度:
    * Q! l& g' }, g
  • 铜解决方案目前限于2D排列,通道间距为400微米。
  • 硅基光电子可以实现3D排列,通道间距小于50微米,使互连密度潜在地比铜高8倍。
  • 光电子技术还允许通过CWDM/DWDM等技术在每根光纤中传输多个通道,而铜线限于每根线一个通道。9 `( X) b& [: `* }6 X* i0 E8 S, u+ E
    % l& B- ~" k# X1 O6 a( m! o$ W% o
    2. 传输距离:
    & G2 ?3 D( @1 v# [7 o
  • 铜链路在200 Gbps时限制在约1米,在400 Gbps时更短(约0.7米)。
  • 硅基光电子可以在800 Gbps的速率下实现高达500米的传输距离。" ?6 |# U  I& I/ ^) H* c5 W' }
    ' Y3 Q; P: U. F8 A  f" e
    3. 机械和热挑战:
    5 d! R  ^* L8 \
  • 铜解决方案通常需要垂直逃逸布线,可能限制散热器面积。
  • 铜缆通常更硬更厚,使安装和维护更具挑战性。! Q8 ^1 D3 m: ^* e7 H  D* M/ `" J" p

    $ i: \. U3 u! K0 X" w& F* k7 s8 [

    apid12vokew64046210916.png

    apid12vokew64046210916.png
    0 D0 W% c8 q- b/ P0 G) A$ |1 g
    图5展示了铜缆解决方案与CPO的比较,突出显示了在传输距离、密度和能源效率方面的差异。: H6 ~0 q: B- F! C- k
    - t+ a% n8 ~0 b/ N: h: Y
    结论/ s. L8 Q* `5 L
    随着AI集群继续增加复杂性和规模,互连技术面临的需求变得越来越具有挑战性。传统的铜基解决方案在带宽、密度和能源效率方面正接近极限。光电共封装(CPO)作为一种有希望的解决方案出现,能够满足下一代AI计算系统的严格要求。( {+ J% M: e: F- f* P) ?, ?$ _/ }

    7 l+ e: P- |/ l; @5 h, FCPO在传输距离、密度、可靠性和能源效率方面具有显著优势。可以实现最终用户针对未来AI系统所追求的高带宽密度(>1T/mm)和低功耗(0 y- C. T- {& J  e) M
    8 m7 `! S; M( H2 Y6 N
    随着AI行业继续推动计算能力的边界,向光互连的过渡,特别是以CPO的形式,似乎不仅有益,而且必要。这种转变将使更强大、更高效和更可扩展的AI集群成为现实,为下一代人工智能应用和突破奠定基础。. w3 n$ d; @3 _2 f/ d1 q( m
    $ g+ P$ G  H$ Q  r4 c
    参考文献
    % A) b" n' k; ]2 m/ W$ x5 M[1] J. Hutchins, "Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.+ L/ e1 M" l$ K( r3 D5 R- }

    9 R9 I& c0 L" j' c; f( u6 HEND2 Q5 `8 T! t/ }5 D3 e- z
    * B# z3 y9 m  Y) b4 K
    1 J  K) F4 Z: P9 k! T
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。* ]4 ^5 M& S3 Y4 b$ K
    点击左下角"阅读原文"马上申请! G# t/ g8 N- y# f# g3 T! C& ]& U
    % X8 y" `8 V4 m& i3 j/ H
    欢迎转载
    ' Z6 `6 Y, H1 n7 u1 _; _: M" o) d9 c/ M5 w2 p3 Z# C
    转载请注明出处,请勿修改内容和删除作者信息!. _- R8 O% A- ]4 v0 f

    3 n4 P1 d: p! ~  [% L% L5 M) ~1 H  m+ b% ^' v

    6 ^8 n: E. b4 C( E

    k1s0z335ifo64046211016.gif

    k1s0z335ifo64046211016.gif

    / c( R. i/ r* m4 {$ O8 N
    : e2 ]4 ^/ t+ E2 {  w" Z% n3 B关注我们& B% g( S9 k0 p! J6 H! k
    : n8 ~" a! i6 b( ]0 o
    - M1 q( g2 `0 Q+ G9 s! }

    5ugombznhs064046211116.png

    5ugombznhs064046211116.png

    . {6 f6 n" L6 W1 t6 s
    & ?: h7 t: C( }. q% G3 I8 [9 ^

    ytllk0cvjok64046211216.png

    ytllk0cvjok64046211216.png
    , W, b6 ~8 v, R2 W

    * V; R/ I  b8 x% Q

    gps5vugazuy64046211316.png

    gps5vugazuy64046211316.png

    ) G& m; A' T1 j% o$ z
                          1 W: W* w" |& c
    ; x) Y! u( ^- O- _) {+ c7 S! _

    4 O( I" |! F  G+ @  f( x' H. w- X3 q& z: g9 x( B' I% K8 `
    关于我们:
      o( y; E6 Z( R深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。0 X- s& H( Y/ F1 j2 Y8 r8 F

    - r6 M3 y) [" i+ Y$ z+ H3 Bhttp://www.latitudeda.com/# c' n* k8 s0 x6 U* ^6 Z' u
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表