|
引言
/ d, Z! `5 ^7 O* D# l在人工智能和高性能计算快速发展的今天,对更快、更高效数据传输的需求不断增长。本文探讨光电共封装(CPO)技术的发展历程、当前状态,以及其在规模化网络和计算架构中的应用潜力。介绍这一技术面临的技术挑战、创新解决方案及其在实际应用中的表现[1]。/ i. `! o7 B4 ]
1 y& W+ F: M& A; t
光电共封装技术的必要性, w, Z- x$ b. s- J( @% r; l1 `
随着数据传输速率不断提高,传统电子互连面临着重大挑战。串行器/解串器(SerDes)向200Gbps迁移的过程中,电气I/O传输距离的局限性日益凸显。
) K9 ^2 H: r" O% o }
: l& n/ ]' a& ?7 x; O
y5w4kbh0u5m6409976215.png
: f4 H) N' _$ ?2 Z7 D0 w图1展示了高数据速率下信号损耗的增加,说明了光电共封装与ASIC集成的必要性。: f7 \/ X3 C0 i0 i7 g- A
4 h/ C2 R% V% K/ G' Y/ G4 w
在这些高速率下,信号完整性成为主要问题,主要由于信号路径各个组件的损耗,包括:* l) R/ N. E( g1 O" l
ASIC通过基板的损耗PCB走线长度损耗过孔损耗Paddle card损耗5 j8 N ^" D' k H5 E
+ k- e8 q" E [3 b随着数据速率从53 Gbps增加到106 Gbps,甚至达到212 Gbps,这些损耗变得更加明显。图表清楚地显示了更高频率如何导致更大的信号衰减,使得通过电气互连维持可靠通信变得越来越困难。/ r4 A; P- z" Y: a# z! t! g0 X
6 a" ^' x( O9 X6 ?" X这一挑战促使了光互连技术的发展,可以与ASIC共同封装,以克服这些限制并实现下一代高性能计算和网络系统。
6 |) V4 D& |! m: ?' y2 s8 B; ^
$ W$ y/ N" g- U: c. U! A光互连技术的演进
. a( d& A4 f8 C& G' {8 \开发具有CPO功能的AI ASIC的历程是渐进的演变过程,从分立元件逐步发展到高度集成的解决方案。
* S7 o' v0 o4 Q ~. o! U5 K1 M& o
9 H2 i7 _1 q4 k6 L: _, h7 |) ?
nhpp0ayfzm56409976315.png
8 I, v8 ~" k, f& |: c
5bqsdb3keye6409976415.png
( v4 r9 E b6 j0 _7 q2 E& ?$ J: t4 `图2展示了从传统模块设计到硅基光电子Chiplet模块的发展过程。
2 D; i' v- z: H2 O4 }传统模块设计:最初的方法使用分立的III-V族元件,在可扩展性方面存在工程和制造限制。模块集成:提高规模的第一步涉及将组件集成到模块中,减小尺寸并提高制造性。硅基光电子模块:在模块中引入硅基光电子Chiplet标志着重大进步,实现了更高的集成度和更好的可扩展性。光电共封装:最后阶段涉及将光学组件直接附加到ASIC上,实现前所未有的集成度和性能水平。( J( l8 B$ m2 J
[/ol], q6 j/ P% D# s
这一演变导致了CPO的两个主要应用:
# e9 U% d5 V2 w" M1 ~* p) z' N0 Q$ q
zzrytwsssqq6409976516.png
. X, b+ ~8 B4 ]: A% O6 X" i图3对比了用于规模化网络的CPO(>50Tbps连接到交换ASIC)和用于规模化计算的CPO(>6.4Tbps连接到GPU)。, S7 |0 ~$ b0 ]/ @1 J
用于规模化网络的CPO:将超过50Tbps的光学直接连接到交换ASIC。用于规模化计算的CPO:将超过6.4Tbps的光学与GPU集成,用于高性能计算应用。& R1 P; w& R1 U8 I& C* A
[/ol], Y% L# _7 U+ T& W" ?3 P5 j0 Q/ H! _
Broadcom的CPO平台
6 P1 ?7 u) i4 K% A/ c& `2 I% ~Broadcom在CPO开发方面处于领先地位,创建了一个全面的平台,解决了高速、高密度光互连的挑战。
$ |6 ?0 S8 Q1 W' e4 P! F, s- w7 v2 s- R2 V$ J- t
qxlxrqockuq6409976616.png
$ G) p# Y% `( @3 v3 g图4提供了Broadcom 51.2Tbps TH5交换CPO的示意图概览,展示了其关键组件。
6 F, {( w9 j& c
- x% K' ^/ b0 sCPO平台的关键组件包括:
% |6 T4 e: z: c# a; b51.2Tbps TH5交换CPO,配备8个6.4T光学引擎16个可插拔激光模块(可现场维修)光纤Cable Assembly前面板端口I/O连接CPO(光电共封装)Broadcom FAU连接器PLS盲插连接器(MPO)
) F3 f$ I* ^6 R" `( c3 w/ ]$ C: D3 }6 G* w3 J' c
. Z- ?3 b/ D( s$ E. A6 ]
kaep0astv5m6409976716.png
# z0 b* C/ ^4 n$ ~
图5突出显示了CPO的关键组件:光电子集成芯片(PIC)、电子集成线路(EIC)、先进封装和高密度光纤连接器。
3 ^4 D( \7 R5 Q- L; l% k' |! }
" q2 a6 i0 O: Q/ D2 G& ICPO系统的核心包括:光电子集成芯片(PIC):包含用于光信号处理的调制器和光电二极管。电子集成线路(EIC):包括用于电信号处理的驱动器和跨阻放大器(TIA)。先进封装:实现光学和电子组件的紧密集成。高密度光纤连接器:便于连接外部光网络。
- d: o: f* {, `& f/ K( V0 G[/ol]" {# w) a6 a, B
, v6 L# C8 {% E3 J& L使用CPO的规模化网络: w5 l1 _3 C* f% B7 A
Broadcom在实施CPO用于规模化网络应用方面取得了重大进展。让我们来看看两代交换系统:
! s9 k) P' Q# a" X2 \* H R _ }( F) {% i# v# r. ^! |% U
第一代:TH4-Humboldt
4 F; N% S$ Y: z2 P @% O
avmpcmsuhs46409976816.png
& K* y) A/ h: w" V+ o
图6展示了TH4-Humboldt,Broadcom的第一代25.6T以太网交换机,部分实现了CPO。0 ~/ n) r; P, w2 _. d9 U
3 J) P/ E8 `: a% Z" Q3 j7 iTH4-Humboldt的主要特点包括:/ K( M p! i8 D5 Z+ A
25.6T以太网交换机一半CPO,一半电气连接四个3.2T光学引擎(32x100Gbps DR连接)光学引擎:PIC与SiGe EIC键合每个光学引擎包含约250个光学组件
# l+ l3 F8 R' L( P* r5 Y# u7 g) ?6 r- _5 i! v `& ?2 |
! y* b: e! d# h p4 F
0cbisbbttyw6409976917.png
7 }4 U4 F/ s) `0 T" X
图7说明了TH4-Humboldt设计中硅基光电子PIC、SiGe EIC和TSV(硅通孔)的集成。! x. p' {/ B* Q. K0 N
! c r. t% R* _7 x第二代:TH5-Bailly
. ~9 \& I. i! y3 o
orlr4vbrlu26409977017.png
6 M- S7 r9 ?7 A: l
图8展示了TH5-Bailly,Broadcom的第二代51.2T以太网交换机,实现了全CPO连接。' R8 o! `/ F6 Y* @2 p
' u! D# }0 T5 t, _6 C/ M6 [* o( M
TH5-Bailly代表了重大进步,具有以下特点:/ K8 U! q0 ?- j6 e% a6 z
51.2T以太网交换机全光学CPO连接八个6.4T光学引擎(64x100Gbps FR4连接)光学引擎:PIC与CMOS EIC键合每个光学引擎包含约1000个光学组件% V2 U x# O; K* Z7 f5 C3 A5 ]6 I
/ _ i, l) t/ |0 t
6 W+ X5 G. O# t9 P2 N' z* t+ j! \
fjz3bnm1hgg6409977117.png
{$ s' h0 g' [# I8 h5 X6 M( Y图9显示了使用扇出晶圆级封装(FOWLP)技术改进的硅基光电子PIC与7nm CMOS EIC的集成。" S- Z4 e! z6 i6 P/ s1 R' t# ^
+ H& |$ a3 [. d: _. ^% OTH5-Bailly中使用的FOWLP技术实现了PIC到EIC键合的更好可扩展性,允许更高的密度和性能。: b# ^1 q$ _) Z1 u) a3 A. h3 Z
, G6 Y7 K, e6 b4 Y0 e; {9 H/ W
性能和功耗效率
Y! H: A3 e, }( s8 L& s' O2 jTH5-Bailly展示了令人印象深刻的性能和功耗效率:3 q1 o/ X5 t- ]+ X& t
- y. Z2 g' y- |0 U: S8 h7 T" q
21fnm5r4zll6409977218.png
# @$ X+ ^) c8 B: E8 y图10显示了完全集成的51.2T交换机72个端口的FEC(前向错误纠正)尾部分布,显示了无错误操作。8 t( J9 R8 S" T( B
]0 [1 O6 |! X! F A图表显示FEC尾部快速衰减,表明所有端口都具有出色的信号完整性和错误纠正能力。/ m! Z/ D, h! M" a) ?( u* Z
6 R' J2 _7 l* W5 I) T& }: p8 @
qb3tntuhtr36409977318.png
; d: H, f. u8 k) \
图11比较了51T交换机盒中CPO和传统可插拔光学的功耗。8 w1 T- J8 z/ q$ q; Y- y- I+ {6 x0 X
5 j4 G+ P4 m! U" k$ R5 [9 u主要发现:6 B- ?0 a) @4 F, m
使用Bailly CPO的光互连比传统可插拔光学消耗少70%的功率使用Bailly CPO的总交换机盒功耗降低约30%对于32k GPU集群,CPO可实现超过1MW的功耗节省
' U8 x7 G0 S& `* P. s, V% W! F4 r- y: X, n
使用CPO的规模化计算* v3 r5 d$ m4 k" Y
CPO技术不仅限于网络应用;对于规模化计算架构,特别是在人工智能和高性能计算领域,也具有巨大潜力。4 o% N% j) {- ?7 o, B& z3 `3 M
" ]/ K% O& d. w0 g1 s( ~0 U" s) R6 |! v
dwhrn31bzjg6409977418.png
; e5 T8 {9 p4 O% R" T" A+ s: a图12说明了具有CPO的计算ASIC,在2.5D多芯片封装中每个光学引擎具有6.4Tbps I/O带宽。0 _: G9 J' Q3 e- S& k" V5 x
5 i ^4 E$ R* D1 h2 L0 `0 Q2 w1 \: j这种先进的封装方法集成了:0 Y. o! {0 b$ o4 f$ N
计算ASICHBM(高带宽内存)SerDes芯片6.4T光学引擎Chiplet: Y, L- }& L' C6 J& V$ A
) C0 _! y! t& Q/ Z# l
在计算ASIC中使用CPO实现了:
; R- y f+ X" x+ {8 ?更高的带宽密度降低功耗改善信号完整性大型AI集群的可扩展性) B$ z7 V: M0 g2 U ]9 C% q
6 ?) _2 v) S. e3 p
6 R: v5 R. `9 l1 C3 d8 r
uyxw340g0ov6409977518.png
: y+ x2 P; }& ^% ~! b4 G( u图13显示了使用CPO的512个GPU全连接单级规模化架构。
8 C& z2 C3 w% g3 [) f' D$ A/ i2 U4 s, T1 W) E1 ~1 v
这种架构展示了CPO实现大规模扩展领域的潜力:, u2 K+ K% b+ s8 r/ L9 b2 q
单行连接中的512个GPU光链路范围从5m到30m(单层)64个高基数交换机每个GPU通过CPO光学连接到所有64个交换机$ Y, r0 Z0 [& I/ Y2 \( a
9 N3 G- x) K6 r1 B' P$ t& Q' ?! k未来发展和路线图
, k6 m' l } x3 z' p随着CPO技术不断发展,我们可以期待密度和性能的进一步提高:# T* A T' {6 j% Z6 ?( A
0 f& y. J, L* q* K8 a, ~
eap4distaua6409977618.png
9 ^- t9 U% n! p6 M# [# }' m
图14展示了规模化光学Rooftop密度路线图,显示从2025年到2028年从12.8T到102.4T的发展。
k# K0 C% m" i8 t2 A# h3 U" a! _& O5 `0 E7 ^
路线图显示光互连密度快速增加:
, W4 f) ^" L8 q- ~" H2025年:12.8T2027年:51.2T2028年:102.4T(发送+接收)
# }* B) X! V8 @& y
: c6 l8 L$ y9 W% Q4 l, |这一进展将在未来几年内实现更强大、更高效的AI和HPC系统。
- Q; e! c1 z: Z/ }6 a6 E2 @/ J5 D& O4 E$ Y# G, e5 h3 A
结论+ X4 r" [; y9 m4 J
光电共封装代表了光学和电子组件集成的重大进展,用于高性能计算和网络应用。通过克服传统电气互连的限制,CPO使更强大、更高效和可扩展的AI和数据中心应用系统的开发成为可能。
- L' q1 C h6 h' F, R! o) c3 S- Q. O5 Z9 u" j- z
正如我们在Broadcom从TH4-Humboldt到TH5-Bailly及以后的发展历程中所看到的,CPO技术正在快速发展,以满足现代计算不断增长的需求。先进封装技术(如FOWLP)的集成,以及光学引擎密度和性能的持续提高,为下一代AI和网络架构奠定了基础。4 j& ^: E7 E7 [) G% }: C
) A5 B; S3 m/ uCPO的优势,包括降低功耗、改善信号完整性和提高带宽密度,使其成为应对网络和计算系统扩展挑战的关键技术。随着技术的不断成熟,我们可以期待看到更多创新应用和架构,利用集成光电子技术的力量推动高性能计算和AI世界的发展。: G7 Q6 c" g, v C9 [
( z! o( t; }5 @; x+ I( C
参考文献
$ r% k O& U4 ] M( h* j H8 {[1] M. Mehta, "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures," Hot Chips 2024, Aug. 26, 2024.- r3 S+ {6 E7 M( _% E" P1 ~" d' m
, L9 T' c2 ?. t+ F- END -0 N: M( u$ N5 f7 p( c' B; O# f
& W6 v$ x/ q ?: C( z
4 [& U. Y% S }" Y) \
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
; ]& K. t' W# f$ d& J/ b% u+ I/ b! y点击左下角"阅读原文"马上申请
0 A" M P4 k; c; W9 X2 L/ K; F' W W: Z9 `
欢迎转载
2 x; r1 Q3 Z) v9 I d
- b& O Z9 p( M8 x转载请注明出处,请勿修改内容和删除作者信息!
! p9 V, t0 D. ~1 J' v& B: [1 h9 \9 x8 V0 Q5 ~& v4 j [- X1 g$ i
+ m8 a) e& Q: g8 M* U' u
0 U4 y5 }5 S, x# l2 O3 T" w! E
tl2y5mxgkdz6409977718.gif
$ D3 d* Z8 N4 F* w# k4 x: R7 z# d" w1 }' k3 |7 l
关注我们
' B! t* N% _+ W7 P3 D* ~5 \. r5 F
3 f. S5 M& o) O, o! B- z
4 F/ t* g+ U3 W5 d
ji4uymkena16409977818.png
3 ~$ z& z, L* X2 L' r5 y2 b5 r | : B* M ^' x2 G. d. p7 M3 V ~, L
3jpatpf4vcv6409977918.png
: I3 G* Q: z5 s# P
|
" ~% X2 |: m$ ?- N. s: r) n% P- v
5t2mrkpsbym6409978018.png
. p& G' Y0 m- h5 x; L- ?
|
Z: D; l) p' _
3 q; @5 A# v* L }8 c, o! J8 z# B0 E4 s! w% {2 _# d# }% o
! ^( [9 M. e- z" d6 k6 F" D4 G
关于我们:
( R; y( K/ ~7 m深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。* b' X$ D; i7 B$ J( ]5 `
4 {, a# Y& f# E- ]+ I `+ x4 D7 `3 r
http://www.latitudeda.com/
1 Z/ [% r. E0 ]* m(点击上方名片关注我们,发现更多精彩内容) |
|