电子产业一站式赋能平台

PCB联盟网

搜索
查看: 547|回复: 0
收起左侧

光电共封装技术推动下一代人工智能和网络架构发展

[复制链接]

970

主题

970

帖子

9635

积分

高级会员

Rank: 5Rank: 5

积分
9635
发表于 2024-10-17 08:00:00 | 显示全部楼层 |阅读模式
引言9 U9 ^5 N% @  K' R& ~
在人工智能和高性能计算快速发展的今天,对更快、更高效数据传输的需求不断增长。本文探讨光电共封装(CPO)技术的发展历程、当前状态,以及其在规模化网络和计算架构中的应用潜力。介绍这一技术面临的技术挑战、创新解决方案及其在实际应用中的表现[1]。9 n9 [( n8 w# r5 \8 y

* |: l# T# d" @& E7 O5 R& j光电共封装技术的必要性
3 ?5 }+ u& f3 d* h. y3 }随着数据传输速率不断提高,传统电子互连面临着重大挑战。串行器/解串器(SerDes)向200Gbps迁移的过程中,电气I/O传输距离的局限性日益凸显。  O5 x' r) ^; m1 N' k
! o+ f6 K- h3 r& g

y5w4kbh0u5m6409976215.png

y5w4kbh0u5m6409976215.png

! p3 ]4 }& F  w' A图1展示了高数据速率下信号损耗的增加,说明了光电共封装与ASIC集成的必要性。( w9 d' V7 D) c2 D
7 i& E& ?( I5 Z& @8 G. O' D5 O
在这些高速率下,信号完整性成为主要问题,主要由于信号路径各个组件的损耗,包括:% B+ Q4 m; n! A/ }8 l* E
  • ASIC通过基板的损耗
  • PCB走线长度损耗
  • 过孔损耗
  • Paddle card损耗
    & b  ~! b% a% o
    , R* R/ f1 n# G' x
    随着数据速率从53 Gbps增加到106 Gbps,甚至达到212 Gbps,这些损耗变得更加明显。图表清楚地显示了更高频率如何导致更大的信号衰减,使得通过电气互连维持可靠通信变得越来越困难。/ W) [; U* ?# Z" q* H! y- z

    7 B# C% O; Z4 J这一挑战促使了光互连技术的发展,可以与ASIC共同封装,以克服这些限制并实现下一代高性能计算和网络系统。
    7 d$ ~$ w8 |2 v: F9 `0 J6 u" T$ {( e- e8 ]2 u0 |# m4 Y1 L. L
    光互连技术的演进+ r. ?  M# _1 J" L5 j& F
    开发具有CPO功能的AI ASIC的历程是渐进的演变过程,从分立元件逐步发展到高度集成的解决方案。
    4 L/ f& a7 ?2 V$ x+ U7 f# N& u% }: I( v6 l* G$ o& P3 G6 W: d

    nhpp0ayfzm56409976315.png

    nhpp0ayfzm56409976315.png
      d' t) X2 Q$ Z

    5bqsdb3keye6409976415.png

    5bqsdb3keye6409976415.png

    0 Q0 s- g, e; q, O. T5 M% L图2展示了从传统模块设计到硅基光电子Chiplet模块的发展过程。
    * G& K* z4 Q- i3 f  N% G
  • 传统模块设计:最初的方法使用分立的III-V族元件,在可扩展性方面存在工程和制造限制。
  • 模块集成:提高规模的第一步涉及将组件集成到模块中,减小尺寸并提高制造性。
  • 硅基光电子模块:在模块中引入硅基光电子Chiplet标志着重大进步,实现了更高的集成度和更好的可扩展性。
  • 光电共封装:最后阶段涉及将光学组件直接附加到ASIC上,实现前所未有的集成度和性能水平。
    3 S. }# y% c' X( O. h[/ol]
    ! E5 Z8 [, K! z( a这一演变导致了CPO的两个主要应用:
    7 t& g1 C( e6 N! F" @. ~7 z+ K) s" A: |" C; g: l, e6 g, y2 O* W

    zzrytwsssqq6409976516.png

    zzrytwsssqq6409976516.png
    # G. W5 O/ f( u6 B6 K
    图3对比了用于规模化网络的CPO(>50Tbps连接到交换ASIC)和用于规模化计算的CPO(>6.4Tbps连接到GPU)。
    ' r: T; B7 Y  L. t  g5 a
  • 用于规模化网络的CPO:将超过50Tbps的光学直接连接到交换ASIC。
  • 用于规模化计算的CPO:将超过6.4Tbps的光学与GPU集成,用于高性能计算应用。: y7 @$ F+ v( M) _
    [/ol]; @! v& U4 {( u5 D3 `  C; q
    Broadcom的CPO平台5 a: T% h, Z- f; W
    Broadcom在CPO开发方面处于领先地位,创建了一个全面的平台,解决了高速、高密度光互连的挑战。
    . R: b) s1 }- Z6 T# t6 {! [- ^5 r& m  h( H' \3 E  u5 \- @

    qxlxrqockuq6409976616.png

    qxlxrqockuq6409976616.png
    ' S( u* B2 C( E* `; `
    图4提供了Broadcom 51.2Tbps TH5交换CPO的示意图概览,展示了其关键组件。7 F, e9 h+ k. h* Q7 o" `' }
      |4 y2 w4 P( d7 h; T6 d( ^$ F
    CPO平台的关键组件包括:
    1 Z% O3 x/ D# w0 ~( m. {7 ?* k
  • 51.2Tbps TH5交换CPO,配备8个6.4T光学引擎
  • 16个可插拔激光模块(可现场维修)
  • 光纤Cable Assembly
  • 前面板端口
  • I/O连接
  • CPO(光电共封装)
  • Broadcom FAU连接器
  • PLS盲插连接器(MPO)2 n  |2 y( `) P: s% |

    4 f+ m6 C% H9 `6 u! g+ f; h1 z: i- D0 P

    kaep0astv5m6409976716.png

    kaep0astv5m6409976716.png

    7 c4 `, @! |4 ~2 U  d$ \" p! i图5突出显示了CPO的关键组件:光电子集成芯片(PIC)、电子集成线路(EIC)、先进封装和高密度光纤连接器。: {2 M& E/ r6 |- s
    9 Z2 S& {- v& |: Z) Q$ |) c6 h
    CPO系统的核心包括:
  • 光电子集成芯片(PIC):包含用于光信号处理的调制器和光电二极管。
  • 电子集成线路(EIC):包括用于电信号处理的驱动器和跨阻放大器(TIA)。
  • 先进封装:实现光学和电子组件的紧密集成。
  • 高密度光纤连接器:便于连接外部光网络。
    , R2 n9 p* w( i[/ol]  b% K: F9 X( [' K; J' d

    3 \1 l' S' E2 Y. @使用CPO的规模化网络& `4 s7 J; ?5 V% J5 Y- s" m" {# ]
    Broadcom在实施CPO用于规模化网络应用方面取得了重大进展。让我们来看看两代交换系统:
    0 e7 Y! l( ^6 s  e/ B, E. ^4 }3 U7 _* H9 |2 d
    - c1 g! \) O' J  \& g第一代:TH4-Humboldt
    ' Z! c' |4 ^! M. l- [' |4 V4 ^2 \

    avmpcmsuhs46409976816.png

    avmpcmsuhs46409976816.png

    / ?5 u' b+ K8 X图6展示了TH4-Humboldt,Broadcom的第一代25.6T以太网交换机,部分实现了CPO。
    0 o  @1 \4 u. T1 L0 |  W7 q! _) `0 z: G/ f9 z: B! v
    TH4-Humboldt的主要特点包括:7 g  [% A% F4 {0 u: w3 I' f$ h
  • 25.6T以太网交换机
  • 一半CPO,一半电气连接
  • 四个3.2T光学引擎(32x100Gbps DR连接)
  • 光学引擎:PIC与SiGe EIC键合
  • 每个光学引擎包含约250个光学组件
    7 u' v' S4 Y$ ~; G2 d+ r

    ' _; a! s& S4 W1 v+ I& q& e; U7 [& ?  L
    - h  J9 ^  c7 k# m

    0cbisbbttyw6409976917.png

    0cbisbbttyw6409976917.png
    1 W  f4 n5 ?- a3 v$ U
    图7说明了TH4-Humboldt设计中硅基光电子PIC、SiGe EIC和TSV(硅通孔)的集成。
    4 l; [2 e5 y5 ^" P8 [& f/ T9 w2 Q; l9 x; L8 ^. ?! z. d
    第二代:TH5-Bailly  D+ N* H. q  y9 B. G' m  c. E: c

    orlr4vbrlu26409977017.png

    orlr4vbrlu26409977017.png

    ( _  k! M2 s( U, ]图8展示了TH5-Bailly,Broadcom的第二代51.2T以太网交换机,实现了全CPO连接。5 t  [6 s5 v+ Y7 l6 ]. K  ?
    9 s* \1 D0 B* |* _
    TH5-Bailly代表了重大进步,具有以下特点:3 Y8 t! J2 |/ V$ v9 `% Z2 I
  • 51.2T以太网交换机
  • 全光学CPO连接
  • 八个6.4T光学引擎(64x100Gbps FR4连接)
  • 光学引擎:PIC与CMOS EIC键合
  • 每个光学引擎包含约1000个光学组件0 ~7 |2 ]+ E1 n8 U& \

    4 S; f) C* v. V8 d. @- g( A! V  m% Y* n/ I* n5 k

    fjz3bnm1hgg6409977117.png

    fjz3bnm1hgg6409977117.png

    & b" c! x) R9 F5 \1 x图9显示了使用扇出晶圆级封装(FOWLP)技术改进的硅基光电子PIC与7nm CMOS EIC的集成。
    , e" z; E/ k  {$ i2 a  |) ]- L5 ?1 o
    TH5-Bailly中使用的FOWLP技术实现了PIC到EIC键合的更好可扩展性,允许更高的密度和性能。9 C8 F3 q# c6 H+ w
    % k5 t5 m: [8 B: x
    性能和功耗效率
    ' Q+ F% s" E5 m9 R! z* N" K# e1 CTH5-Bailly展示了令人印象深刻的性能和功耗效率:
    * _* a* y! l0 E' S/ Q
    2 E4 ~0 x1 B! Q5 ~

    21fnm5r4zll6409977218.png

    21fnm5r4zll6409977218.png
    ( e3 N  i' {/ E% A, @! T1 P7 w
    图10显示了完全集成的51.2T交换机72个端口的FEC(前向错误纠正)尾部分布,显示了无错误操作。
    6 M0 R* l: W" a6 k$ {
      i% _" F' {4 e. H图表显示FEC尾部快速衰减,表明所有端口都具有出色的信号完整性和错误纠正能力。, Y# W4 B- Y' z) h0 ^+ ]2 Y

    . `# e# m/ e% l2 c

    qb3tntuhtr36409977318.png

    qb3tntuhtr36409977318.png
    $ N9 L* I' M1 w2 c2 V1 |( \4 O
    图11比较了51T交换机盒中CPO和传统可插拔光学的功耗。
    $ O7 H) i4 F  t7 `5 i+ y2 Y0 O1 R/ n) m2 s: o/ {: A. Z9 `6 |
    主要发现:5 r& I3 X6 l/ O' Q# s; v
  • 使用Bailly CPO的光互连比传统可插拔光学消耗少70%的功率
  • 使用Bailly CPO的总交换机盒功耗降低约30%
  • 对于32k GPU集群,CPO可实现超过1MW的功耗节省6 B: j" F2 S6 t8 J. {

    6 q9 O5 u- E+ N% ], d使用CPO的规模化计算
    * ~6 U, H! M$ W4 b: o5 UCPO技术不仅限于网络应用;对于规模化计算架构,特别是在人工智能和高性能计算领域,也具有巨大潜力。8 r# ]" T. Q0 s/ k5 S5 S* S5 s
    & S- z/ g! V5 F6 y5 P4 R0 @6 y

    dwhrn31bzjg6409977418.png

    dwhrn31bzjg6409977418.png

    , [7 J: e2 H. ~: A图12说明了具有CPO的计算ASIC,在2.5D多芯片封装中每个光学引擎具有6.4Tbps I/O带宽。
    3 e9 l& w: C1 p! |0 [% |1 K
    / e3 f: L( b7 ^- u0 C- b! X这种先进的封装方法集成了:
    % f. C0 I* C" z2 I: n/ H
  • 计算ASIC
  • HBM(高带宽内存)
  • SerDes芯片
  • 6.4T光学引擎Chiplet
    . k& [8 A  g7 U9 @, G
    * i' ^) s* v1 \) c
    在计算ASIC中使用CPO实现了:
    , T- _+ R+ {3 A, r
  • 更高的带宽密度
  • 降低功耗
  • 改善信号完整性
  • 大型AI集群的可扩展性$ s" d" O$ u# p$ h' y. P* \2 G

    / [5 U) `4 E2 p4 j1 d, k- ?
    + e* j6 I: A# k5 B

    uyxw340g0ov6409977518.png

    uyxw340g0ov6409977518.png

      m1 @$ E+ ~( w) O7 p图13显示了使用CPO的512个GPU全连接单级规模化架构。  D& ?4 {7 Z5 T* q8 u% k6 J" P1 m

    ; G7 p. J2 Z. s9 L* u这种架构展示了CPO实现大规模扩展领域的潜力:
    8 q) i' \# @- K# Y
  • 单行连接中的512个GPU
  • 光链路范围从5m到30m(单层)
  • 64个高基数交换机
  • 每个GPU通过CPO光学连接到所有64个交换机4 N7 K# g. `' X# j* \
    . B% J8 T+ a6 O  c7 J; o! z
    未来发展和路线图3 z* L7 v: I. y; O0 F
    随着CPO技术不断发展,我们可以期待密度和性能的进一步提高:
    % C! q& s$ W: x' z
    1 b, H3 W. ?" ]2 T- F  Q

    eap4distaua6409977618.png

    eap4distaua6409977618.png

    / ?; y" b- L9 ^图14展示了规模化光学Rooftop密度路线图,显示从2025年到2028年从12.8T到102.4T的发展。. {& Z$ ]& x) D1 ?- h
    # s6 n" U! R5 ]" N6 ?  f0 A9 ?
    路线图显示光互连密度快速增加:+ m/ K! Q) T8 V( ~4 w
  • 2025年:12.8T
  • 2027年:51.2T
  • 2028年:102.4T(发送+接收)" F( I" B3 M: J$ \5 T) {1 Q
    ; S# z+ g: Z9 |4 L0 J3 e/ E
    这一进展将在未来几年内实现更强大、更高效的AI和HPC系统。  F  a* }8 K! [% x9 T4 \
    ; }# A! d3 e4 n1 X
    结论
    8 H! E6 Y$ Y6 [& x3 y& |8 a; a光电共封装代表了光学和电子组件集成的重大进展,用于高性能计算和网络应用。通过克服传统电气互连的限制,CPO使更强大、更高效和可扩展的AI和数据中心应用系统的开发成为可能。
    " g2 B' x3 }* q& s, {, T4 k4 P" @# M/ E( s& X
    正如我们在Broadcom从TH4-Humboldt到TH5-Bailly及以后的发展历程中所看到的,CPO技术正在快速发展,以满足现代计算不断增长的需求。先进封装技术(如FOWLP)的集成,以及光学引擎密度和性能的持续提高,为下一代AI和网络架构奠定了基础。; f4 D- ?7 |' @3 u4 e' |: `
    3 m! W# S8 r1 z% Q% Z+ S. L: |
    CPO的优势,包括降低功耗、改善信号完整性和提高带宽密度,使其成为应对网络和计算系统扩展挑战的关键技术。随着技术的不断成熟,我们可以期待看到更多创新应用和架构,利用集成光电子技术的力量推动高性能计算和AI世界的发展。& d$ I% Y- T) Y

    : G( A, b3 f* F0 d8 K参考文献
      u7 y9 s- I7 H# o; k: Y[1] M. Mehta, "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures," Hot Chips 2024, Aug. 26, 2024.
    & f* m6 V& ]4 s# w
    : J1 C" {2 A' W$ c- END -
    ; I/ I/ b( d( P; ^2 N
    2 q9 q+ `" {( T3 l5 \; M4 V' f  L# z- m6 x
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。* Q# B4 n# b- F$ v& s
    点击左下角"阅读原文"马上申请0 i4 O) w/ Z6 K. l9 H# U0 o3 G. C
    * N7 u+ ^! `6 [+ w
    欢迎转载
    + r  y7 ^$ D, V+ e" o) Q& c- ~# H$ E+ e9 r# |1 O
    转载请注明出处,请勿修改内容和删除作者信息!- ?) H' b& Y; ^
    5 w% f* z  E' K0 }) M) L
    ; k. s! ~/ n3 B+ {( C9 ~" w
    9 t8 `8 d' N5 N' h, o9 \1 Y

    tl2y5mxgkdz6409977718.gif

    tl2y5mxgkdz6409977718.gif
    8 }: m, c. c& F4 h( [! b- |

      v" z1 M4 k5 D- a- V2 ^关注我们
    ; p0 }- _9 c# j1 Q4 q5 N2 O: _# {; o1 x$ ]( l+ D
    8 F) d, y, l3 a5 ~) b

    ji4uymkena16409977818.png

    ji4uymkena16409977818.png
    # B2 l6 S- F- {6 t6 D0 _) ^

      }- i3 c  B  Z1 w9 Q9 n

    3jpatpf4vcv6409977918.png

    3jpatpf4vcv6409977918.png

    : V* D9 Y" `  Q+ z. b( f
    ; Y" U% I+ q4 s+ `4 [

    5t2mrkpsbym6409978018.png

    5t2mrkpsbym6409978018.png
    / ]8 z# o3 d' p$ G! q: R
                         
    2 N! t. J7 v6 `1 ~! X5 T- U# u# @  ~/ l6 l2 H* p9 \! h7 T

    ; o* ^2 D, q: l- K4 }9 B* I! _3 j4 |1 g$ u" N9 u# q
    关于我们:
    9 P0 r' T/ J3 b) {" P. ^4 e深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    0 r: o3 q, }, P3 v3 y- U/ h# l
    6 Z; I( O# ~2 y) X2 U  Shttp://www.latitudeda.com/. L1 A2 T0 G1 O1 ?1 }
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表