|
引言9 t3 L7 N, F9 i- g
半导体行业经历向基于Chiplet设计的范式转变,这种设计能够通过2.5D或3D封装技术集成专用芯片。这种方法解决了整体集成的挑战,同时提供更好的性能、良率和灵活性。通用Chiplet互连快速(Universal Chiplet Interconnect Express,UCIe)标准已成为Chiplet互连的关键标准,专注于带宽密度、能源效率和延迟等关键指标[1]。2 K3 c# {) [9 G
zshmtz3jdgw640166422.png
) Q! H7 R8 C* X: k2 D
* N+ O& e X9 I" q" Z" I9 X& V
1
6 @* F1 A( ?% s" \Chiplet技术和UCIe标准简介8 G6 s. ^6 |! X( X- B6 C( ^9 j; Y
基于Chiplet的设计已获得显着发展势头,特别是由于人工智能和机器学习应用的日益增长的需求。这些应用需要大量计算能力,传统单片芯片设计难以实现。UCIe标准的开发旨在解决标准化Chiplet互连的需求,促进不同供应商Chiplet之间的互操作性。
* h# ^% t. l1 c# o' `& d1 ^/ i$ S% @: z
Chiplet互连设计的主要挑战之一是平衡性能与功耗。动态时钟门控是减少功耗的关键技术,但在时钟门控和非门控模式之间切换会带来显着挑战。模式转换期间的瞬时电流浪涌(Di/Dt)会导致电源轨上的电压下降,进而导致数据采样不对齐和位错误。 E) ]) `: Q' b! D" [* t& j
3 l, b+ N. u) M5 N; M
2
. N/ J! T: f; L9 p系统架构与实现! `% D% L e7 r w. I
TSMC与AMD的论文介绍了一个在3nm技术中实现的32Gb/s、64通道UCIe模块。该模块采用匹配延迟架构,专门设计用于解决动态时钟门控的挑战,同时确保低功耗和最小延迟。
, s( I7 @5 s$ b- `$ F, U! f( ^: L. A' z1 v) b8 H2 U
系统采用2.5D先进封装技术,其中两个顶部系统级芯片(SoC)通过硅桥连接。每个芯片包括两个×64 UCIe模块,通过微凸点在硅中介层上相互连接,尺寸为3100×1500μm2。模块设计采用10列凸点模式,最小间距为45μm,在388.8μm前缘宽度内,遵循预定义的信号排序以确保链路互操作性。" N7 X4 \6 ` j: u5 G
2 j3 U) @( U" D$ F- a图1展示了系统概述,包括多速率支持、封装横截面、芯片尺寸和模块凸点图。该图显示了UCIe接口的详细配置,通过硅桥连接的SoC顶部芯片。
5 e3 M* Q" l5 B( |: I
sz3c5zqe0ke640166522.png
s& @0 w) X/ U" U9 W7 ?
图1:系统概述,展示了通过硅桥连接的两个SoC芯片的封装横截面,以及UCIe模块凸点图和多速率支持规格。& \% T' f5 \. q9 O
2 i+ R* N: G$ l$ I! T
UCIe模块支持4Gb/s至32Gb/s的数据速率,在32/24Gb/s时以四倍数据速率(QDR)模式运行,在16/12/8/4Gb/s时以双倍数据速率(DDR)模式运行。还支持各种总线比率(4:1、8:1和16:1)以适应不同的SoC应用,数字逻辑运行在0.5GHz至2GHz之间。' h* {- N. k* O A
; N8 n: s1 @" E
3
* U% S2 m, P( ?- h+ m时钟架构与相位管理
! {8 n7 E! g* W" }时钟架构对于在支持动态时钟门控的同时实现高性能至为重要。在发送器侧,使用两个主要时钟:LCLK(由系统PLL生成)用于逻辑-PHY接口,ACLK(由PHY PLL生成)用于模拟PHY。% X4 G* C* y. q, b, L2 \/ X
& F2 K3 t" M) Y; N" k% S4 R
发送器支持两种时钟域交叉模式:. _3 ^$ j. K# a
1. DESKEW模式:通过单个重定时触发器提供低延迟" f5 ~% V# A, J/ Q3 c' ^$ e" O9 J& J
2. TXFIFO模式:处理严重的LCLK温度或电压漂移,增加2-4T LCLK延迟和0.015pJ/b功耗
m6 ^/ G' |3 C
0 R0 F% g7 }( g" b9 g图2描述了详细的时钟架构,展示了具有数字控制延迟线(MPD_DCDL)的多相位延迟,该延迟线具有12个反相延迟级,共享粗调和微调控制。
5 O2 G- w9 C9 }4 R" f G- B
rm2xlflwafo640166622.png
: z/ ^9 `+ [( f! G图2:时钟架构图,展示了MPD_DCDL实现和INL消除技术,用于确保时钟信号之间的精确相位关系。
! a# [* U9 _7 w" e. H/ r2 v1 x4 c- F. p4 V$ ]6 U
MPD_DCDL设计确保当延迟锁定环中的相位检测器对齐PH0和PH360之间的边缘时,每个级别有30度的相等延迟。这种相位延迟通过后续的基于反相器的相位插值器进一步细化,具有5位分辨率。相位旋转算法,结合特定的时钟选择布线配置,确保在正交相位之间进行一致的微调调整,以消除系统积分非线性(INL),实现0.9375度的相位调整分辨率,INL为1.06-LSB,DNL为0.37-LSB。
9 q2 y* e7 X5 B5 f' q7 R1 E5 P: [5 {* I; {! f; o# H& u# w" u
44 b1 a0 s7 j* x6 J. D
发送器设计与实现/ _1 z* N) C" o+ r
发送器架构包含一个2抽头、基于1UI的前馈均衡器(FFE),以抵消通道插入损耗。数据和转发时钟通道具有相同的结构,以确保匹配延迟和使用0、90、45和135度相位的正确同步。
2 G+ r* }' y4 i( {0 h) \# t7 M$ \
: n8 k6 v. P" @; c! B: o图3显示了详细的发送器线路架构,包括SST驱动器、脉冲级采样串行器和占空比校正器/正交误差校正器(DCC/QEC)组件。
6 X- o! w: u# Z, h$ E) [
zylcovtku2u640166722.png
, F& i \2 f( J8 ]$ P( s+ N" b图3:发送器线路架构,展示了SST驱动器实现、脉冲级采样串行器设计以及确保时钟质量的DCC/QEC线路。- x& v. M" G6 P u; u6 V
; V6 o7 j8 X8 P8 K" D% l
每个后级驱动器由九个源级终端(SST)驱动器组成,校准为25Ω输出阻抗。16:4串行器使用脉冲级采样通过时钟脉冲而非时钟边缘选择信号,从而减少延迟和功耗。这种方法使得FFE、重定时器和MUX的组合延迟仅为6UI。
, g+ {* }% K' w: ~# H8 q
_3 m1 X {* V一项关键创新是数据驱动的转发时钟生成器,通过在低速逻辑中操作同步时钟模式灵活生成转发时钟,同时保持关键的数据-时钟相位关系。DCC和QEC位于时钟路径的中间位置,以确保时钟质量。模拟DCC便于运行时校准,之后可以门控时钟以在空闲期间节省功耗。由有限状态机(FSM)控制的QEC采用斩波消除技术,消除直流偏移和器件不匹配。这些组件共同实现了小于0.3%的占空比误差和330fs的正交相位误差。
% j4 o5 S( c2 ~. |# Z
! M* K: Z7 A* u5 O5- \: b6 j% c0 O! i8 u$ Z' t6 u( A0 d
具有匹配延迟拓扑的接收器架构
; E5 o$ `) `3 U4 K( k( j接收器架构采用匹配延迟拓扑,确保数据和时钟信号在整个信号路径中保持适当的相位关系。这对于动态时钟门控特别重要,其中取消门控后的第一个时钟转换必须正确捕获数据,而不需要时钟前导码的额外延迟。" B* n6 \7 l0 g
- x6 j$ E. a* F/ @ Q0 i
图4展示了接收器线路架构,强调了匹配延迟拓扑、自去偏能力、运行时校准以及带有P/N偏斜校准的基于反相器的接收放大器(RXAMP)。
% T4 }! v. ^+ p9 T# s G
j4dgxmwdcle640166822.png
( U, ]4 w. d+ r R7 J/ @ w0 Y$ Q
图4:接收器线路架构,展示了维持数据和时钟信号之间相位关系的匹配延迟拓扑,以及自去偏和运行时校准机制。6 r' ~8 b' K7 ~4 F
1 A O+ q8 l2 m
在接收器中,DATA和CKP/CKN延迟精确匹配,维持45度相位关系直至感应放大器触发器(SAFF)。数据和时钟路径共享类似的线路拓扑,以确保尽管电压下降或温度漂移,相位仍然一致。物理不匹配,如时钟路径中的过度RC延迟,通过数据通道中的门延迟进行补偿。
+ X( q# |8 d1 R5 d2 ~/ J' J- b! n, q9 e
. `, H0 I) x2 X5 a5 L! j1 d设计表现出对电源变化的出色抵抗力。20mV的Vcc扰动在数据/时钟路径中导致11.3/11.5ps的绝对延迟,仅导致两个延迟匹配结构之间0.2ps的延迟差异。器件变异性通过校准过程进一步管理。( J, x: |/ V) \; ~
2 g3 i! X6 F" f+ x3 r# G& c, o
数据通道前端作为硬化宏实现在每个接收器凸点下,Track通道(TRK)具有一个复制实例。在冷启动初始化期间,Track通道通过时钟路径中的每通道去偏缓冲器将CKP与TRK对齐,最小化数据(DTS)和时钟(CTS)路径之间的静态不匹配。随后,训练协议基于单个内置自测试(BIST)操作进行相位插值器训练和数据通道的每通道去偏,将CKP与数据眼中心对齐,同时扩大总体眼余量。
; t( f' s. l; Y" Z+ j9 l* k& c4 a; @) V# L/ Z
6* i1 r7 e5 Q3 G0 g5 J8 t
物理实现与电源完整性
4 U6 ^- s( T2 r; C NUCIe模块的物理实现由于微凸点间距小而面临显着挑战,这限制了电源和接地凸点的访问。为了在避免IR压降和电源震荡问题的同时实现32Gb/s的全速测试,模块被分为九个段,每次仅激活一个段(最多8个收发器)进行位误差率测试。
$ c; e' o1 @: f* a2 _" Q2 D" I1 }7 v J9 ^6 i/ S
图5展示了模块的物理实现,突出了分段方法、去耦电容策略、电源阻抗和电压纹波性能。
. l1 X' [! R# Q/ n- P: m3 H- z
xezqcvnryit640166923.png
+ U" {' p% c4 o6 N: \: ?
图5:模块集群分段、去耦电容策略和电源阻抗分析,展示了使用先进去耦技术时电压纹波性能的显着改善。0 s( J1 r) D6 x8 ?
( Z+ x% Z- P( o' V* u+ V9 |5 J
根据官方UCIe凸点图,TX和RX集群位于相对的两端。在已知良好芯片(KGD)分选期间,发送器的高速数据通过重新缓冲级穿过模块的一半到接收器形成回路路径,同时保持匹配延迟结构以实现同步。
! L3 h% c) _% ~4 {& K: y$ ^; j' g, r" i3 V. b. O
采用了两种关键的去耦电容技术:顶部芯片中的超高密度金属-绝缘体-金属(SHDMIM)电容中介层芯片中的嵌入式深沟电容(eDTC)
% ^: J4 C+ u% D3 {( ]' Z* w9 G[/ol]6 e) G7 R. l' O2 n3 G2 \5 {
SHDMIM电容虽然成本更高(50nF/mm2),但提供低等效串联电阻(ESR)并在150MHz以上共振电源平面阻抗。eDTC提供更高的电容效率(1100nF/mm2)并减轻40MHz以上的阻抗。实现显示添加eDTC后峰峰电压纹波从102mV降至32mV,突显了先进封装技术对改善电源完整性的重要性。9 ~" C, S* m! ]# ~0 o1 |# D
- }, W7 H$ y; W8 z7
Y; K1 u J' t7 a芯片间通道与信号完整性
' Z* {& y2 ]0 o% J芯片间通道设计对于在高数据速率下保持信号完整性很重要。图6展示了使用桥芯片中五个金属层的芯片间通道布线风格,以及信号完整性分析和眼图测量。/ ^ w* C0 a7 }9 R" O
qvfv1o1ohxc640167023.png
" E; C4 `! C( D" _1 }, N图6:芯片间布线风格、展示插入损耗和串扰性能的信号完整性分析,以及有无每通道去偏校正的测量眼图开口分布。* W% f6 r6 b1 @& N, Q7 W4 C
' [0 D: K9 c3 r [3 D, i' N
每条信号线都通过接地连接屏蔽,以最小化串扰噪声。该图还显示了通过九个段中64个通道的pi码测量的眼图开口分布。在每通道去偏校正后,眼图开口从26个pi码宽度(-12至+14)改善至60个pi码宽度(-30至+30),将眼图余量提高了34%UI并将眼图中心定位在pi码=0处。
' \9 Z, C8 r6 }" Z) _! }4 Q; U. z* B, @4 {5 K3 x0 H
通过在x轴上扫描pi码(316fs/码)和在y轴上扫描Vref码(16mV/码)获得的2D眼图shmoo,在32Gb/s操作下实现了令人印象深刻的19ps眼宽(61%UI)和56%的眼高,展示了设计的优异信号完整性。
! N7 V) e' `% d/ e2 x! W. w* D% h& T, O2 X3 e5 y
8
; r6 E) C# e* @8 `8 D性能与比较
$ a+ S9 A9 ~; G- N图7展示了从顶部芯片俯视图的芯片照片,显示了芯片间微凸点和用于单芯片CP测试的较大间距探测凸点。该图还包括功率分布分析和与最先进技术的比较。
: q. ~/ C M$ Y9 O( r8 l
1xwwrntjgeg640167123.png
8 [7 M1 s: |6 k
图7:芯片照片展示了微凸点和探测凸点布局,以及功率分布分析和与其他最先进实现的性能比较。1 k* a$ j- X e
1 e5 v$ Q7 q, I3 F" f2 p2 i' P8 v
UCIe接口特有64个Tx通道和64个Rx通道,每通道实现32Gb/s,前缘带宽密度达10.5Tb/s/mm。系统在全突发模式下实现0.6pJ/b的能源效率,在50%突发模式和50%时钟门控下改善至0.46pJ/b。9 [6 s8 j0 E P; H _
8 y1 n0 W$ F/ M3 n
与其他最先进实现相比,这项工作因高数据速率(32Gb/s)、出色的能源效率(0.6pJ/b)和卓越的带宽密度(10.5Tb/s/mm)的组合而突出。比较表显示,虽然其他一些设计在特定操作模式下实现了更好的能源效率,但该实现在完全符合UCIe标准的同时提供了性能指标的平衡组合。; a( m1 O; q& N: Z6 z+ a2 t5 D! F
: B4 S: [0 S7 B! F6 k7 M9
) Y4 \$ u- {. U/ k结论
" B7 Z& z2 W6 f* V3nm技术中的32Gb/s UCIe兼容接口代表了Chiplet互连技术的重大进步。通过用于动态时钟门控的匹配延迟架构等创新线路技术,该设计解决了实现高带宽密度、能源效率和低延迟的关键挑战。
' ?8 C; \+ Z! S9 V# @/ V9 L. m: T5 s" b' T- x' E9 s
匹配延迟方法确保数据和时钟信号之间的正确同步,即使在时钟门控和非门控模式之间切换时,也不需要时钟前导码的额外延迟。通过精心的线路设计和校准机制,该实现也展示了对电源供应变化和器件变异性的出色抵抗力。
: ^! a: ]& X; \& ^, }6 K1 v, D( Y- s, g' _" U( ~
物理实现利用了先进的封装技术,包括SHDMIM和eDTC去耦电容,以改善电源完整性。芯片间通道设计采用接地屏蔽信号线和每通道去偏校正,确保在32Gb/s操作下的出色信号完整性。& b/ a/ O/ }8 D8 d) b8 y4 @" M
! C$ V4 H O E4 R& B# V随着基于Chiplet的设计继续在解决AI和ML应用日益增长的计算需求方面发挥重要作用,像UCIe这样的标准化互连解决方案将在实现下一代高性能计算系统中发挥关键作用。该实现表明,UCIe标准可以实现先进Chiplet集成的带宽密度、能源效率和延迟要求,同时保持不同供应商Chiplet之间的互操作性。/ D6 [- V1 C3 ]$ h
0 X3 ], d- G& k% l, G3 C. L, V" ~参考文献& a$ y( d+ h& s% b
[1] M. Lin et al., "A 32Gb/s 10.5Tb/s/mm 0.6pJ/b UCIe-Compliant Low-Latency Interface in 3nm Featuring Matched-Delay for Dynamic Clock Gating," 2025 IEEE International Solid-State Circuits Conference (ISSCC), San Francisco, CA, USA, 2025, pp. 586-587.; s8 V, |8 }: n9 M
END- s" X, N. m) h+ t1 F
I3 l% {8 l7 [* Q+ D: y软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。1 x; [% x0 ~8 ?$ z/ |' a: s
点击左下角"阅读原文"马上申请, O" v7 f+ Z5 F, U
* c3 c: t: Q( E欢迎转载: T& ?8 c V2 [- V6 a6 h0 S
% n1 e8 P* e$ d- ^% o2 Q) J转载请注明出处,请勿修改内容和删除作者信息!' P; x4 ]. w! c( s( N. y
% o: z( f$ o* y3 W, L% s. {
, P. d( @! T5 b& }
, R8 }1 Q) n" c' {
pdftyhl5q5m640167223.gif
% p/ U2 B3 B4 o2 ? @5 f: K
! C- \ m$ n/ W9 B6 r9 ]6 K. |关注我们+ A+ K) Q. A: G6 Y* `
" O0 I8 d" v! V: x5 a9 Q0 v- q$ _
6 H8 c, [& i. J1 @0 M7 ]
5dxiexiur3n640167323.png
" O! D" i6 r6 n' |; z z |
; o2 K, F! f& E- n7 k) }: w
izrrln22e2g640167423.png
. x' I& U* Z# _9 o5 }; p+ [
| - H e; C) _5 m2 A2 W5 p6 C5 p" }
ftqpbmdb2mc640167523.png
4 m& s( l! P9 ~7 r8 b. U. M1 `
|
. k: I+ ?3 P% P2 d3 ?
; Y% n: w8 A( l2 O/ ]0 h* z4 B8 I1 u! E! p" \* G$ u6 R
6 j; g' t5 P& ~! c- H8 W/ X& E关于我们:
* J( K. b+ d. ]+ U深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。7 f' L7 E4 P7 K6 |( q
! X2 o. M) x; b1 `- x
http://www.latitudeda.com/
! B- g+ g7 t5 h" C(点击上方名片关注我们,发现更多精彩内容) |
|