电子产业一站式赋能平台

PCB联盟网

搜索
查看: 119|回复: 0
收起左侧

光电共封装技术推动下一代人工智能和网络架构发展

[复制链接]

631

主题

631

帖子

5295

积分

四级会员

Rank: 4

积分
5295
发表于 2024-10-17 08:00:00 | 显示全部楼层 |阅读模式
引言. h4 U) }, j9 M/ u5 |
在人工智能和高性能计算快速发展的今天,对更快、更高效数据传输的需求不断增长。本文探讨光电共封装(CPO)技术的发展历程、当前状态,以及其在规模化网络和计算架构中的应用潜力。介绍这一技术面临的技术挑战、创新解决方案及其在实际应用中的表现[1]。
) G# a: j& O! v3 Y5 Z. V- v, t+ C
光电共封装技术的必要性
4 W$ [; H$ F. ~. q* S$ M随着数据传输速率不断提高,传统电子互连面临着重大挑战。串行器/解串器(SerDes)向200Gbps迁移的过程中,电气I/O传输距离的局限性日益凸显。
2 {' a' o  j! w* x; a9 o4 W9 F

y5w4kbh0u5m6409976215.png

y5w4kbh0u5m6409976215.png

+ G% E5 G' f3 a* V/ G图1展示了高数据速率下信号损耗的增加,说明了光电共封装与ASIC集成的必要性。
% d) C5 X9 Q/ ?$ U; V; `6 I3 |+ j8 P
+ b* j' V- G" M8 b* e9 T在这些高速率下,信号完整性成为主要问题,主要由于信号路径各个组件的损耗,包括:: k' ^. ]( ?. n9 b$ y" Y# b
  • ASIC通过基板的损耗
  • PCB走线长度损耗
  • 过孔损耗
  • Paddle card损耗
      T1 E+ \, x% w

    7 U  \9 O6 H+ L. ?+ d随着数据速率从53 Gbps增加到106 Gbps,甚至达到212 Gbps,这些损耗变得更加明显。图表清楚地显示了更高频率如何导致更大的信号衰减,使得通过电气互连维持可靠通信变得越来越困难。
    ( R! X' \" T/ f" Z  N! m8 |6 ], u4 E) M, C
    这一挑战促使了光互连技术的发展,可以与ASIC共同封装,以克服这些限制并实现下一代高性能计算和网络系统。7 S9 z" ]. E& C  C" l

    9 [7 Q9 {8 N5 ^" q光互连技术的演进
    # r0 Q  g2 e* o' o/ c开发具有CPO功能的AI ASIC的历程是渐进的演变过程,从分立元件逐步发展到高度集成的解决方案。
    : e& |' o; t8 D4 M5 _& u
    ; \& f8 n# T/ _# [6 R( ?# u

    nhpp0ayfzm56409976315.png

    nhpp0ayfzm56409976315.png

    * m1 s% V6 j4 p; n& r- g" s

    5bqsdb3keye6409976415.png

    5bqsdb3keye6409976415.png

    1 F( B" s* T& ^& M  S7 `图2展示了从传统模块设计到硅基光电子Chiplet模块的发展过程。
    & O+ ?2 X0 w( f& [4 Q
  • 传统模块设计:最初的方法使用分立的III-V族元件,在可扩展性方面存在工程和制造限制。
  • 模块集成:提高规模的第一步涉及将组件集成到模块中,减小尺寸并提高制造性。
  • 硅基光电子模块:在模块中引入硅基光电子Chiplet标志着重大进步,实现了更高的集成度和更好的可扩展性。
  • 光电共封装:最后阶段涉及将光学组件直接附加到ASIC上,实现前所未有的集成度和性能水平。4 H) T% \! o: @) L: s
    [/ol]
    0 O' e( g- S# L$ S7 p! {+ P6 _这一演变导致了CPO的两个主要应用:
    0 O& C: m0 A- N/ s" N2 F& \1 h) @
    9 J1 d1 g6 G9 M8 E8 C$ q: g

    zzrytwsssqq6409976516.png

    zzrytwsssqq6409976516.png
    , I8 o9 q' d8 z" g
    图3对比了用于规模化网络的CPO(>50Tbps连接到交换ASIC)和用于规模化计算的CPO(>6.4Tbps连接到GPU)。
    + ?* F4 f' \6 N5 }; w) E6 b! \
  • 用于规模化网络的CPO:将超过50Tbps的光学直接连接到交换ASIC。
  • 用于规模化计算的CPO:将超过6.4Tbps的光学与GPU集成,用于高性能计算应用。  v$ c* X  b3 s7 t: W1 @
    [/ol]
    * Z4 ^9 y' ~1 d/ E( L7 c/ a+ H6 u2 J, @Broadcom的CPO平台0 Q4 v" S1 {& k2 L0 r1 p7 h
    Broadcom在CPO开发方面处于领先地位,创建了一个全面的平台,解决了高速、高密度光互连的挑战。$ Q- m! R6 z- W5 }+ A, i

    & q5 ^) F/ ?3 V5 ]

    qxlxrqockuq6409976616.png

    qxlxrqockuq6409976616.png
    . p2 f6 g% _5 v9 h! j" p$ u7 \! L
    图4提供了Broadcom 51.2Tbps TH5交换CPO的示意图概览,展示了其关键组件。# _3 j, k$ E9 _: D8 n3 q7 Z4 A
    5 }5 `  y% `& K4 ^2 d9 f" D
    CPO平台的关键组件包括:
    + c6 q9 l3 p3 R; v3 d6 |: a6 ]
  • 51.2Tbps TH5交换CPO,配备8个6.4T光学引擎
  • 16个可插拔激光模块(可现场维修)
  • 光纤Cable Assembly
  • 前面板端口
  • I/O连接
  • CPO(光电共封装)
  • Broadcom FAU连接器
  • PLS盲插连接器(MPO)7 y/ g8 d/ D' h1 o9 Z2 g" C: I$ P+ C

    9 x. m: K) N0 s( |: r) |. ]3 K) ]$ n2 K2 N* T, b

    kaep0astv5m6409976716.png

    kaep0astv5m6409976716.png

    4 }5 m( @2 X6 w/ J: k图5突出显示了CPO的关键组件:光电子集成芯片(PIC)、电子集成线路(EIC)、先进封装和高密度光纤连接器。8 P- ?7 R/ x+ q5 r3 S. n5 |2 ~" h
    ' \; t& {) L( O8 Y* d( g/ H
    CPO系统的核心包括:
  • 光电子集成芯片(PIC):包含用于光信号处理的调制器和光电二极管。
  • 电子集成线路(EIC):包括用于电信号处理的驱动器和跨阻放大器(TIA)。
  • 先进封装:实现光学和电子组件的紧密集成。
  • 高密度光纤连接器:便于连接外部光网络。5 R" h' n2 F1 A& q) N
    [/ol]
    3 f% @5 e% r" A8 u! ^- a0 Y, x" P
    9 U% M# l( g9 X7 W. R/ t
    使用CPO的规模化网络6 \/ i% u' u8 O8 ^+ L. A1 K( t
    Broadcom在实施CPO用于规模化网络应用方面取得了重大进展。让我们来看看两代交换系统:
    / h2 e' t# N) f$ o: Q' p; T
    * m8 `, ?( v: `, Y" |1 v8 m( l7 q第一代:TH4-Humboldt
    $ d, T+ U( o4 j7 Y+ N

    avmpcmsuhs46409976816.png

    avmpcmsuhs46409976816.png
    , g9 \1 t4 b1 a; z* \' `
    图6展示了TH4-Humboldt,Broadcom的第一代25.6T以太网交换机,部分实现了CPO。
    # M3 r# _, g1 ~% i# o; m: ^  @$ T3 b; c4 Y; i. H
    TH4-Humboldt的主要特点包括:& a- `2 Y* s9 d0 A# n" J1 e& \
  • 25.6T以太网交换机
  • 一半CPO,一半电气连接
  • 四个3.2T光学引擎(32x100Gbps DR连接)
  • 光学引擎:PIC与SiGe EIC键合
  • 每个光学引擎包含约250个光学组件5 B# I  v# P" @! M, o% A

    % f# v7 t  G9 k/ u# G
    , Q4 A- H+ T4 L; }

    0cbisbbttyw6409976917.png

    0cbisbbttyw6409976917.png

    $ i- Y: s; x* A( Q7 b图7说明了TH4-Humboldt设计中硅基光电子PIC、SiGe EIC和TSV(硅通孔)的集成。. o+ a0 V0 X5 X+ d
    & [/ ]/ N0 C0 h1 R
    第二代:TH5-Bailly8 W2 l# z- i3 d% c- D1 @4 p

    orlr4vbrlu26409977017.png

    orlr4vbrlu26409977017.png

    , ?" g! G5 z5 o" Z5 ]- ?1 E图8展示了TH5-Bailly,Broadcom的第二代51.2T以太网交换机,实现了全CPO连接。
    ; z% a! ~( z0 p: J4 e0 p" B! }" g  p
    TH5-Bailly代表了重大进步,具有以下特点:* Y6 c! @& S0 _* j" b6 x( J
  • 51.2T以太网交换机
  • 全光学CPO连接
  • 八个6.4T光学引擎(64x100Gbps FR4连接)
  • 光学引擎:PIC与CMOS EIC键合
  • 每个光学引擎包含约1000个光学组件! x1 \7 @' t" Q& H

    - h+ J1 W9 U2 h- M4 `0 a5 g7 S/ h( q% X3 W  F) Q

    fjz3bnm1hgg6409977117.png

    fjz3bnm1hgg6409977117.png
    & |$ b9 D( \) f: K3 y2 B; O. U3 F
    图9显示了使用扇出晶圆级封装(FOWLP)技术改进的硅基光电子PIC与7nm CMOS EIC的集成。
    & i% ]. N5 U8 i1 b. [1 I  i, e
    ; R% R9 l2 t/ f& y8 G6 UTH5-Bailly中使用的FOWLP技术实现了PIC到EIC键合的更好可扩展性,允许更高的密度和性能。
    + N" U" f. O7 s' K, M. x& M0 L0 B/ J6 H  L- N6 m
    性能和功耗效率* |- z' ~: B9 m) `+ h6 e, j
    TH5-Bailly展示了令人印象深刻的性能和功耗效率:
    # o9 C4 r- ?5 a/ k1 Z7 m. g' R( ?# _$ \, P# J# R4 R! x; b5 i3 u; @

    21fnm5r4zll6409977218.png

    21fnm5r4zll6409977218.png

      ^- x4 s5 i. D图10显示了完全集成的51.2T交换机72个端口的FEC(前向错误纠正)尾部分布,显示了无错误操作。. U& v3 q8 p* D4 V. C! t6 z$ n8 B
    0 l; P- e3 Y1 o, ?3 {
    图表显示FEC尾部快速衰减,表明所有端口都具有出色的信号完整性和错误纠正能力。
    0 g5 |# A& M6 B. [, a3 E- A; F' U) t: a* \% i

    qb3tntuhtr36409977318.png

    qb3tntuhtr36409977318.png

    1 o& d- Y8 P4 |. Y9 |" r1 m4 @图11比较了51T交换机盒中CPO和传统可插拔光学的功耗。" X3 o6 I6 H  T4 u+ d. p+ n

    6 v  T( y  X3 s. w, n# l主要发现:
    7 M/ `5 I/ p# D9 j
  • 使用Bailly CPO的光互连比传统可插拔光学消耗少70%的功率
  • 使用Bailly CPO的总交换机盒功耗降低约30%
  • 对于32k GPU集群,CPO可实现超过1MW的功耗节省0 O( ^: D+ a/ I2 C7 F, a* h5 F

    ' ]' w8 Y+ c# u% x# d使用CPO的规模化计算
    6 H" ~1 o# }+ {4 _CPO技术不仅限于网络应用;对于规模化计算架构,特别是在人工智能和高性能计算领域,也具有巨大潜力。
    & ?+ Q3 e+ o9 ~" v" _2 n* F+ a: i( t% Q

    dwhrn31bzjg6409977418.png

    dwhrn31bzjg6409977418.png
    2 B. E' B7 ]( |# p5 d
    图12说明了具有CPO的计算ASIC,在2.5D多芯片封装中每个光学引擎具有6.4Tbps I/O带宽。* X, L% B4 W* a( E8 P5 f1 H

    * n; H' T" O. E, |) n0 {# v这种先进的封装方法集成了:2 R" |3 A% f* W( }9 V8 V- `& m
  • 计算ASIC
  • HBM(高带宽内存)
  • SerDes芯片
  • 6.4T光学引擎Chiplet
    % z/ R! E% l+ v: `! c' _# j. z

    2 Q" N% _6 x$ D$ d0 G在计算ASIC中使用CPO实现了:; a: R2 k! ]! h5 [; P0 j+ E; X
  • 更高的带宽密度
  • 降低功耗
  • 改善信号完整性
  • 大型AI集群的可扩展性
    / A$ H( i# [- S/ w
    & W: |* Z6 r' F! Q: F
    $ G/ ?! J. \7 c! X2 n* Q* E

    uyxw340g0ov6409977518.png

    uyxw340g0ov6409977518.png
    3 u7 u+ u. j3 H( F$ F
    图13显示了使用CPO的512个GPU全连接单级规模化架构。+ s5 h1 S( o% h( t7 Z$ e

    ! H5 d8 o  X' X: ~2 ~* B这种架构展示了CPO实现大规模扩展领域的潜力:/ R8 x. n! }7 S6 I
  • 单行连接中的512个GPU
  • 光链路范围从5m到30m(单层)
  • 64个高基数交换机
  • 每个GPU通过CPO光学连接到所有64个交换机) z$ ~) r0 ~& L; S
    & j& m% K7 L; H; N/ J
    未来发展和路线图9 i! E8 g* V/ c; c; n) w* T
    随着CPO技术不断发展,我们可以期待密度和性能的进一步提高:
    ' f* C  Q' x/ M- _( Q7 Y0 t2 r" ~' Z+ v! T  f

    eap4distaua6409977618.png

    eap4distaua6409977618.png
    2 e6 p4 W5 b  \( \7 g5 Z
    图14展示了规模化光学Rooftop密度路线图,显示从2025年到2028年从12.8T到102.4T的发展。& Z/ v9 E( {! V7 y. v7 ^6 u1 T
      q! E2 g# k- h( H* {( K
    路线图显示光互连密度快速增加:& D  |& q+ h9 Y. H( Y% F  }5 i
  • 2025年:12.8T
  • 2027年:51.2T
  • 2028年:102.4T(发送+接收)
    ! F: z) @, f" a( V. i. N( L- E

    ( z: [' F& \, F6 E; X这一进展将在未来几年内实现更强大、更高效的AI和HPC系统。
    * \/ T% o3 R+ {7 F, }( {8 b1 k6 H
    3 S! S4 q, s$ t; o) E2 v3 x4 [, U! Y结论
    ) q) ^0 H* E' _/ k! r( Q( S4 L" `光电共封装代表了光学和电子组件集成的重大进展,用于高性能计算和网络应用。通过克服传统电气互连的限制,CPO使更强大、更高效和可扩展的AI和数据中心应用系统的开发成为可能。
    * {: p& M- e) \. z) H- d  R
    3 _" t; C( C$ F3 u  U正如我们在Broadcom从TH4-Humboldt到TH5-Bailly及以后的发展历程中所看到的,CPO技术正在快速发展,以满足现代计算不断增长的需求。先进封装技术(如FOWLP)的集成,以及光学引擎密度和性能的持续提高,为下一代AI和网络架构奠定了基础。
    ! Z9 K  q5 g* {7 Y
    9 E( Z2 T5 ~# a! }: e5 a/ x' sCPO的优势,包括降低功耗、改善信号完整性和提高带宽密度,使其成为应对网络和计算系统扩展挑战的关键技术。随着技术的不断成熟,我们可以期待看到更多创新应用和架构,利用集成光电子技术的力量推动高性能计算和AI世界的发展。& _* q7 r; E: k

    2 {7 \: d0 z2 u6 [/ {; H参考文献) ?: q, b  H6 H; D
    [1] M. Mehta, "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures," Hot Chips 2024, Aug. 26, 2024.
    : R, e6 `) Z' @0 V2 i: a! K0 y' T2 S0 w8 z, S; r* V
    - END -
    6 i4 w% z4 s$ l/ `
    ( n) i0 |( B) O. k1 E
    ! T$ s9 R, g. R/ G' ?6 e9 J软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。+ b# \# l& B* x
    点击左下角"阅读原文"马上申请& W) L* G/ F3 X, n1 N: @2 R" Q
    * C, e8 W- X& z2 B
    欢迎转载# u0 M* F, ^9 e  s$ U" S

    9 d) P, {- s  X3 Y转载请注明出处,请勿修改内容和删除作者信息!" B3 @% c$ J3 m

    , i' l' M3 `: `4 {  Y
    ; }  R: I! u) X8 h

    # j- k5 l7 n0 D  `. p( n+ C1 E

    tl2y5mxgkdz6409977718.gif

    tl2y5mxgkdz6409977718.gif

    $ Q" v. v( m+ H7 U( R* u9 W2 p% `0 ~# w. {
    关注我们4 L7 s; w! V2 f) ~! k. `6 d8 n8 H. @2 K1 L
    ! W: ]( a" z' i8 t/ i3 g

    - O: z+ ~" h0 }# y- f0 _( W

    ji4uymkena16409977818.png

    ji4uymkena16409977818.png

    + O6 K4 P! F4 p0 I$ ^

    9 ^& |7 g$ S* ]$ v6 T

    3jpatpf4vcv6409977918.png

    3jpatpf4vcv6409977918.png
    ( T  Y- ^; I, {% j5 M
    5 A$ D" E" Y- N+ ~5 ?- w6 f& E6 i

    5t2mrkpsbym6409978018.png

    5t2mrkpsbym6409978018.png
    + y, j- v" X* _/ i
                          + s$ i4 y" d4 R+ D) \* }

    % D" O4 ]% O. ^; C, w7 }

    / o3 n$ w% Q2 B
    & L" r( v$ L- z5 G, Y, K关于我们:
    , m9 O+ q8 }; z3 ]3 r深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    ) X8 P6 r+ d5 }$ I+ {3 T" Z; }5 C- t  f- f4 T9 N6 }
    http://www.latitudeda.com/
    : G+ ^) _6 G2 z, q) s4 N/ @8 j(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表