|
引言
3 j7 ~$ d* j; U8 W, p1 V8 FChiplet 架构的兴起 ?* z2 N: M0 H7 a& `. \1 V
现代半导体设计已经转向基于 Chiplet 的架构。自 2018 年以来,系统需要超过 100 亿个晶体管,传统的单片式方法面临严峻挑战。技术代际之间有限的扩展迫使设计者增加芯片尺寸以提升性能,这反过来又导致良率下降和成本增加,形成了一个问题循环[1]。
) F" H3 U4 G4 [8 J$ R" ^. n8 ]
3iudhvooq3h6402274034.png
" q6 F& G' w* B% S
% [. y6 g: O; _# Y9 J8 x
Chiplet 方法通过将系统分割成可管理的芯片尺寸提供了一个令人信服的替代方案。这种架构转变带来多重优势:更高的制程良率,由于良率提高而降低的成本,能够在最佳制程技术中设计每个功能,以及跨不同产品重用 Chiplet 的机会。成本比较特别引人注目 - 使用混合节点(如 7nm 与 14nm)的基于 Chiplet 的设计可能比完全在 7nm 等先进节点实现的假设单片设计经济得多。" N: E/ t) [ K& [9 w+ M
sz1fz2c2ytg6402274134.png
/ `3 C: o2 _* u5 P+ e( J图 1:Chiplet 方法的好处,包括标准化芯片成本比较和晶体管数量趋势。 b, r8 @5 {0 J L7 k1 }% M
, p3 @2 K; L0 U* p7 v
1
4 X, f0 [7 t" C; A5 h0 V- k芯片间链路的演进
$ y0 q0 B8 m. N" R) n芯片间(Die-to-Die,D2D)链路经历了引人入胜的演变。早期阶段(约 2018 年)专注于基于串行的物理层接口,光互联论坛(OIF)考虑将 XSR/USR 56G/112G 标准用于多芯片模块接口。这些早期实现针对 2D 封装,数据率为 112G/224G,有时还结合了光网络功能。1 Q; Y/ ^# m# p
8 o) p0 }2 \& _# k3 Q3 A9 T
到 2019 年,行业转向基于并行的物理层接口。先进封装技术实现了低速、高密度的并行接口,具有更高的 I/O 密度、更短的链路范围以及更低的延迟和误码率(BER)。这一阶段出现了 AMD 的 Infinity Fabric 和 NVIDIA 的 NVLink 等专有解决方案。
9 d6 F. k1 s2 o l! o
4 f: g- D7 j6 D3 d4 D) g约 2020 年,焦点转向开放标准,如开放计算项目、芯片联盟、开放 HBI 和 BoW(Bunch of Wires)等倡议。最终,通用 Chiplet 互连快车道(UCIe)由于其技术成熟度和强大的联盟支持而成为主导的全球标准。
5 D9 c$ L3 [/ P7 X
u4bmupjpcve6402274234.png
) S# I) y6 [1 z8 f+ U/ N* ^
图2:时间线显示芯片间链路演进的四个阶段,从基于串行 PHY 到 UCIe 标准化。
2 D' h5 W( y2 ~5 N: Y |5 K D- s4 J( `! ^
当前芯片间链路趋势集中在提高带宽效率和降低功耗。先进封装和标准封装之间的性能差距正在逐渐缩小,两种方法都显示出显著改进。先进封装通常提供超过 3 Tbps/mm 的带宽效率,功耗低于 0.4 pJ/bit,而标准封装则从 1-2 Tbps/mm 的带宽效率和约 1-2 pJ/bit 的功耗效率得到改进。; G, b7 F! s" Z6 S* ^0 k! q
" D2 }+ u: c9 H0 a+ Z& J0 `
20 K! g8 B2 v, M
不同封装类型的收发器架构
, }3 F" Z2 a: y, X1)标准封装架构,标准封装芯片间链路通常具有较大的凸点间距和凸点尺寸,允许更复杂的均衡器设计。然而,它们面临通道设计规则约束的挑战,需要更高的每通道数据率来补偿较低的通道密度。设计人员必须仔细管理通道偏移校准,并考虑可达 25mm 的更长通道长度上的反射和串扰效应。
8 Z# a/ w5 J3 a, f- G3 R( S
iqdhfrypwhl6402274335.png
4 L) |; c* N9 P) {% w
图3:标准封装架构显示衬底上的 Chiplet 连接,以及信号布线的横截面视图。* Z: z8 }% {* z8 R6 ^
3 h; x& y3 G6 I
2)带硅中介层的先进封装,先进的 2.5D 封装采用带有微凸点和显著较小凸点间距的硅中介层。这些设计涉及插入损耗和串扰之间的仔细权衡。凸点限制的设计必须根据所需的带宽密度优化硅中介层的数量。通道长度通常限制在小于 3mm,这简化了信号完整性管理的某些方面。
$ ~+ X' v% K& S; Q. [
f4tdc0o1z4l6402274435.png
% @( l" Y5 \- ]; d) w0 C4 l6 z9 m$ p图4:带硅中介层的 2.5D 封装架构,显示微凸点连接和 Chiplet 布局。
! O# [+ _! }0 G* ]' K
' n" i# _3 B) S( `3) 3D 封装架构,3D 封装方法代表了最集成的解决方案,极短的通道长度使设计简单,无需复杂的均衡器或校准线路。这些封装提供较低功耗和最佳面积带宽效率,使其特别适合高密度集成需求。$ D5 T4 i; @1 k- ~4 V/ x+ y1 ~
c5nomsf51up6402274535.png
/ g) f. c, V/ Y- H1 D- Q图5:3D 封装方法显示带垂直互连的堆叠芯片。! h1 @/ i, q9 y
" a) y' N% v+ e+ R
3 A1 l) @% d1 A+ d9 ^% X8 w# }5 N: q
单端与差分收发器设计
9 i" W6 w$ j- m2 ]# S芯片间链路可以使用单端或差分信号方法实现。串行链路通常采用差分收发器架构,具有嵌入式时钟,适合标准封装。它们提供高速每通道数据率、高质量均衡方案,以及对长通道长度和高损耗条件的良好补偿。其差分性质也使其对电源噪声不敏感。然而,这些优势是以较低的密度、较高的功耗和增加的延迟为代价的。
# |9 K9 w& A) T5 U$ W
/ k5 a( b6 n( d+ g相比之下,并行链路通常使用带有前馈时钟的单端收发器,适用于先进、标准和 3D 封装。主要优势包括高密度集成、低功耗和降低的延迟。主要限制是每通道数据率较低,由于空间约束导致均衡技术有限,以及对电源噪声敏感。4 F' Z' Y! B: q/ }
u3datxe410d6402274635.png
& N3 l T4 U) `6 j# j
图6:用于芯片间通信的串行链路架构,具有差分信号。
+ M6 J: m7 T4 N, |% R' B5 C
qnibusf1gvg6402274735.png
0 _& }/ b) ]: E+ X. N图7:用于芯片间通信的并行链路架构,具有单端信号。
9 {1 `' K# }( ]/ ^5 ^
) a+ U- O6 |8 ]3 ^: E; R4
8 S% W4 t0 b) c/ z. i w4 _2 h! T发送器设计考虑因素
! f; S u: v) p% _( b芯片间链路的发送器设计已经显著发展。早期实现使用 CMOS 驱动器,相对较大的电压摆幅(0.8V),但趋势已转向具有较低摆幅(0.3-0.4V)的 N-N 驱动器以减少功耗。类似地,串行化架构已从 2:1 转向 4:1 方法,以获得更高的数据率。可以根据应用需求采用各种发送器拓扑:$ W6 x" x+ V- x: i& K5 z* r" _
1. CMOS 驱动器:具有全摆幅操作的传统方法
" H m, v$ h+ ~4 J2. 低 VDDQ 驱动器:降低电压操作以提高功率效率
% F5 G3 j9 O/ T" i- ~; a3. AC 耦合驱动器:消除直流电流路径以降低功耗* g. I4 b( ^) l9 H$ Y M3 ]$ T
4. 同时双向驱动器:使两个方向同时进行数据传输2 \1 v7 t3 z! p1 t" P5 p+ T/ k
' y8 u* I1 C2 s! N5 @芯片间发送器设计的一个重大挑战是由于互连的集成性质,难以直接测量发送器输出。因此,设计人员必须依靠仔细的模拟和间接测量技术来验证性能。
2 D2 w4 u0 C2 N1 x9 G* s; t
rclm1scoqdk6402274835.png
+ m( d( d" {' g+ }( k+ P( J图8:各种发送器驱动器拓扑,包括 CMOS、低 VDDQ、AC 耦合和双向方法。8 ?' I" Z% R3 d5 t6 G3 E. a2 E# n
5 O2 J' k) Q& x$ v先进的发送器设计结合了专用均衡技术,如用于远端串扰(FEXT)和符号间干扰(ISI)的双模式均衡。这些方法可以显著改善信号完整性,而无需额外的电路组件。芯片上反馈均衡专门针对内部 ISI 消除,通过放松串行器负载电容引起的 ISI。
% ]. P4 a! W; y! `/ C8 u
1crp30ctxs36402274936.png
0 X7 E! b& e6 W; H/ s! ]
图9:带有用于 FEXT 和 ISI 减少的双模式均衡的发送器。' A/ H5 s J2 z
, S( Z+ H1 |2 w# x
59 X5 p8 a/ M5 i$ {4 H9 ?
接收器设计技术) v+ O& F2 m' @
芯片间链路的接收器设计根据封装类型和性能需求而变化。对于具有较长通道的标准封装,CTLE(连续时间线性均衡器)结合基于 T 线圈的 RX 前端设计提供高质量均衡,并补偿大的插入损耗。这些设计通常包括在高数据率下进行阻抗匹配的终端。
R1 K) C5 t2 z! T% P$ F+ B
o231eawgg2x6402275036.png
9 k1 Y; E( [; z0 h. s- f图10:带有基于 T 线圈的接收器前端设计和相应的芯片照片。
! ?3 G& O! Q! D/ j$ n0 s: E
4 s/ ]& F$ |, R对于 2.5D 和 3D 封装中的短距离应用,基于锁存器的更简单接收器前端通常足够。这些设计强调偏移校准和参考电压训练,同时最小化输入电容。简化的架构消除了均衡和终端的需要,节省了功率和面积。/ Q( v, w* B: A, ]* O, ] {
1zzv1za0ri46402275136.png
1 q8 _# T$ N/ }% r9 E图11:带有偏移校准电路的基于锁存器的接收器前端设计。' Z* B z- m- G
7 ^0 ]/ @' K. |" \) D4 P
6& B, f# y# q$ F& P6 B
时钟偏移校准和去偏移技术+ u. L9 X: y$ \9 ?' e5 `) V3 e* j; C
时钟偏移校准对于可靠的高速芯片间链路至关重要。在高数据率设计中常用的四相时钟架构中,使用专用模式进行占空比校正和延迟偏移校正。这些模式使时钟边沿精确对齐,确保可靠的数据采样。" z, @+ `" E0 L, @2 I
iemtvh1rjft6402275236.png
& I' [' r) c' R$ ]: S" N1 M图12:用于占空比和延迟偏移校正的时钟偏移校准模式。
3 b& U% ^$ W8 y+ Y& p
7 p f) V8 O6 t- m, p0 b9 T去偏移电路可以在发送器或接收器中实现,各有不同的权衡。关键考虑因素包括来自复制电路的潜在数据信号完整性下降,以及需要每通道偏移校准以实现低延迟。现代设计通常采用粗延迟线用于低功耗的全局去偏移,结合细延迟线用于本地每位去偏移,以支持高速操作。6 M0 D" l; D9 J1 Z6 S
3zl0n42oe236402275336.png
. o3 p$ l. M/ l- u8 z, @
图13:去偏移电路架构,显示全局和本地去偏移机制。
& {8 L7 j& b/ @/ |& I6 t4 ]' p* q, {: L4 n, R- ]
对于温度漂移补偿,周期性校准方案变得越来越重要。先进设计结合了同时使用有效位和跟踪位的编码方案,允许在不中断正常数据传输的情况下进行背景校准。这些技术使得对温度相关漂移效应进行连续监控和调整成为可能。
7 G# N* }/ U) \; |
! M& l! L6 Z% q# A! l3 G; G/ W) W( E7
@4 {' Q; q( L1 C) [高性能链路的关键考虑 M8 E1 q' |" a
1. 电源域隔离与抖动跟踪,芯片间链路设计中的一个基本挑战涉及电源域隔离与抖动跟踪性能的平衡。在时钟前馈架构中,时钟和数据路径通常匹配以确保良好的抖动跟踪。然而,由于噪声考虑可能需要电源域隔离,这可能在时钟和数据路径之间造成不匹配。
* T" O- O) ~% E8 Y- u* \: L4 |5 ?" ?
132hjl1sr5n6402275436.png
0 K/ T' ?0 M3 {0 T0 C- g, K/ r
图14:时钟前馈架构,显示电源域隔离和抖动跟踪之间的权衡。, n% d' Q0 B$ r. a. W( ~
! q- h% K! Z3 b( p- j% X可以实现各种隔离方法,从数据电源域中完全隔离所有时钟路径(包括驱动器)到更有选择性地隔离特定元素,如去偏移电路或不匹配敏感组件。最佳方法取决于系统抖动要求和电源噪声特性。/ U3 V& T4 Q+ s+ c. u! T
7 W" U: e& B2 q/ h" _2. 电源噪声管理,电源噪声是高带宽密度芯片间链路的一个重大挑战。随着许多通道同时运行,通常具有相同的模式,电压波动可能严重影响性能。案例研究表明,当所有 DQ 同时以相同模式运行时,数据路径电源域中可能发生大的电压波动(高达 350mV),需要大量的芯片上去耦电容。6 S2 `; s8 s( A
pvpaqazzi5v6402275537.png
3 z E- u# T- c# _% o$ C图15:显示不同数据模式场景下电压纹波的电源噪声测量。' y: |0 C2 b4 A
5 i7 K P9 d! k
减轻电源噪声的策略包括为不同通道组使用不同的种子模式,以及在通道之间引入故意偏移以防止同时切换。这些方法可以将电压纹波从 93mV 减少到低至 20mV,显著提高信号完整性,而无需大量去耦电容。
' ]7 m5 k% q8 s7 c$ @( p( @% k/ ~' L1 m9 n) r) |# I
8
" n5 n ^. |. v1 `3 d2 N& Z$ p$ N未来工作和新兴趋势; W% @8 |5 O8 `9 n3 [
展望未来,为推进芯片间链路技术正在追求几个关键研究方向:/ _$ H: H" n& u1 \) g5 Y6 M
先进封装中的更高数据率:探索 PAM4 与 NRZ 调制的比较,包括 T 线圈方法在内的新型均衡器方案,以及利用 3D 封装提高性能8 ^8 Q5 J% ?1 r; E( w# C$ D) \
替代通道技术以降低成本同时保持性能
2 n% g4 B, A M6 B( M, A8 n k通过功耗降低和更小的凸点间距技术提高标准封装中的带宽密度
4 @6 Y- H! A8 T% i6 o: Q; u通过创新的芯片上去耦电容实现改进电源噪声管理9 n0 b" _1 @% X5 H2 x
7 m0 P) k+ i) ^( [
随着 Chiplet 架构在系统设计中继续获得突出地位,芯片间链路技术将继续作为模块化、高性能计算系统的关键使能技术。带宽密度、功率效率和信号完整性的持续改进将进一步巩固 Chiplet 作为下一代计算平台首选架构的角色。
$ c2 r& ]' z0 h" m) k
2 _* ^- D' e- S+ g+ \参考文献* S3 S% |4 F6 }, r! O( t0 m
[1] K. Seong, "Single-Ended Transceiver Design for Die-to-Die Links," in IEEE International Solid-State Circuits Conference (ISSCC), Forum 1.3, 2025.$ O$ Q% s( `" ]& ?
END, s: F+ ]) @# {* F
. i, H5 F" J* ~' E( n软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
- {% \# @; g o3 I点击左下角"阅读原文"马上申请
; X/ l2 c5 n; s4 U6 E2 a- N; O: `% p% ~
欢迎转载
& R( o9 M. ^4 R8 ]0 |1 |5 E) f, ? e4 p; J) q ~
转载请注明出处,请勿修改内容和删除作者信息!
. q' L# ?7 u- \! L9 _7 x- e% \+ a8 U! |
2 n, A! u; h0 I8 s ]. a5 u
. C% O: I1 D* M8 G
jtvog1rviih6402275637.gif
) x, @) o! Y+ D% o0 ?8 \/ p! e$ Z" m" m9 ?
关注我们0 {/ [; K/ j! x3 `( y z; `
1 L: D4 b8 U5 |+ ^; a' J* Y H: K7 v
/ z7 G8 C0 C, U+ h2 q# P
cgdh0ktodb36402275737.png
9 Z/ q+ Y/ m! W K- ^& O |
% E0 W* ]6 n' F# G. `3 c
c4jimoouaht6402275837.png
2 u5 A+ H3 h6 N o4 @% D |
3 F" u0 q$ h( C2 v5 B' j# ?
23lix0v3qrc6402275937.png
$ n7 {) X/ _. _ Y$ v- W% u% _
|
# F, b9 T/ {% k% X- \$ f1 R6 W4 N8 E2 j" S% E: E1 |+ E( c
4 [" v: v+ ]/ Y2 t8 ]
0 t' h0 y3 U/ o8 ?- R关于我们:. f- P$ |! G3 K0 s9 V5 B
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
5 u& Y: D5 u# `! N- m' z3 d; z; E- v4 v& |3 D6 T
http://www.latitudeda.com/2 @7 m% f, J4 _. ]
(点击上方名片关注我们,发现更多精彩内容) |
|