电子产业一站式赋能平台

PCB联盟网

搜索
查看: 175|回复: 0
收起左侧

ISSCC2025 | 芯片间(D2D)通信技术:UCIe先进封装链路深度解析

[复制链接]

1021

主题

1021

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
10433
发表于 2025-3-12 08:01:00 | 显示全部楼层 |阅读模式
引言
0 M/ K/ W1 \. w! H+ v0 x芯片间通信介绍
8 i. ]; @* [7 S4 U半导体行业不断发展,超越传统缩放方法,正在拥抱异构集成作为提高性能的途径。系统级封装(SiP)设计已成为一种有吸引力的解决方案,允许在单个封装内集成在不同工艺节点上制造的专用知识产权(IP)模块。这种方法需要强大、高效的芯片间(D2D)通信接口,能提供高带宽、低延迟和卓越的功耗效率。
4 Z$ Y! m( l; c# C2 b' H/ q+ \! _6 _# R3 S; `4 `7 y9 D# d% A
通用芯片互连快车(UCIe)标准代表了该领域的重大进步,提供了芯片间通信的标准化方法,确保不同供应商之间的互操作性。虽然专有芯片间链路在最近发表的论文中展示了令人印象深刻的性能,但通过创建分散且不兼容的接口限制了生态系统的发展。UCIe标准解决了这一挑战,为构建高性能芯片间链路提供了蓝图,使来自不同制造商的芯片能够协同工作。
$ O9 q4 G6 V- O# w# z7 Z' f
( c0 T% R: E3 k2 s/ v; h1 l本文探讨了使用3nm FinFET技术制造并集成到2.5D芯片叠层封装(CoWoS)的UCIe先进封装(UCIe-AP)链路的实现和性能。该设计实现了显著的规格:0.29pJ/bit能效、5.27Tb/s/mm边缘带宽密度、以及每引脚4至16Gb/s的运行速率,同时保持卓越的位错误率(BER)性能[1]。
1 n/ v% R9 g3 B

slq2nbxz4s06404237611.png

slq2nbxz4s06404237611.png

& Y5 ?" h, _. ?0 {2 _. R# o* ~/ T
( y8 N8 T7 n( r( u9 ~  B1$ p5 \, {1 r( ]1 `
UCIe先进封装架构0 G2 i6 I3 l- ~  B1 X& R- H
UCIe-AP模块架构体现了对信号完整性、功耗效率以及符合UCIe标准的精心考虑。每个UCIe-AP PHY模块的核心部分由64个发射器(TX)和64个接收器(RX)数据通道组成,并配有专用信号和冗余功能。  |5 U; o5 K& i+ f: M9 ]- k

4watzb2qunc6404237711.png

4watzb2qunc6404237711.png

3 H% f9 o: X0 j- D7 Q图1展示了(a) UCIe-AP模块的TX/RX架构块图和(b)按照UCIe标准规范设计的凸点布局图。# f: y8 }* w3 i$ s
8 i* j/ m- l& U$ V2 \9 ~( o
如图1(a)所示,每个模块包含:. d; }* n! D4 g; F! x( I: H2 m
64个TX和64个RX数据通道作为主要数据路径
7 K3 _# c) b3 G) Y1 F2个具有互补相位的时钟通道用于时序协调. a+ }/ v+ F0 t3 \* |
一个侧带(SB)时钟和数据通道用于控制信号
) C+ s6 |/ c. ]一个用于监测电压-温度(VT)漂移的跟踪通道
2 @- i. Y+ L1 t7 u" [7 @( c一个发送预定义模式以指示有效数据传输的有效通道
( ?7 F0 X6 k( x9 S$ u- P9 A

: N3 m; d0 u2 T此外,该模块包含冗余设计,TX和RX路径各有6个冗余通道(4个数据,1个时钟,1个有效),加上2个冗余侧带通道(1个SB数据,1个SB时钟)。这种冗余提供了容错能力,即使某些通道遇到制造缺陷,也能保证正常运行,从而提高良率。
; Z, b% K1 e/ h, K
% C* M, t8 a( l数字部分实现了链路训练状态机(LTSM),根据UCIe标准规范管理初始化、校准和训练。还包括每通道伪随机二进制序列(PRBS)模式生成器和检查器,用于测试和验证。
; m2 V% ]1 P9 I$ M$ l  v, V; H& J' L& C
图1(b)描绘了UCIe-AP模块的凸点分布图,设计有10列凸点。信号出口顺序精确遵循UCIe标准要求,当连接到合作模块时,最小化通道间信道偏差。为了最大化边缘(前沿)带宽密度,岸线宽度保持在标准规定的388.8μm。
2 O! G( n0 l/ B  A+ U/ N% e; \9 z% ]+ B: q9 F- J
22 ?# h% M! w! ]; a% E* @+ a! e! }
发射器设计
& L! p/ i* e+ ?" C发射器架构采用单端半速率非归零(NRZ)信号,采用前向时钟、延迟匹配设计。这种方法有助于跟踪并最小化诸如电源电压变化等确定性噪声源的影响。
) r1 T7 z# _. N0 m1 C  ?; E

jgsvkk3bqxp6404237811.png

jgsvkk3bqxp6404237811.png

  [1 W8 `1 p! _7 J0 b  i) x图2展示了(a)发射器顶层组织结构,(b)单个TX通道结构,以及(c)驱动器电路实现。: Z7 B2 i7 ^# T6 {( W

* h" l5 }, V) A% V发射器顶层图2(a)包括一个公共模块(TX_CMN)和多个TX通道。TX_CMN包含基于环形振荡器的锁相环(PLL)、带隙参考、偏置生成电路以及两个相位插值器:一个用于数据(DPI),一个用于时钟(CPI)路径。PLL接收100MHz参考时钟,对于16Gb/s操作,输出8GHz时钟的多个相位到两个插值器。2 ~3 N( i9 g! p0 T
# _) H, r7 L4 @' }7 E3 z5 J0 X
高速时钟分布使用长度匹配的单端CMOS时钟树实现,将8GHz CPI和DPI时钟分配给所有TX通道。为满足UCIe标准要求,该设计支持多种数据速率(4、8、12和16Gb/s/pin),PLL、时钟、TX和RX电路均设计为能在此范围内运行。3 O9 W/ H' `$ A  p- q# Y

5 J+ X3 F( G+ X8 B6 J1 c3 t5 [每个TX通道图2(b)包含一个时钟去偏移模块,后接一个时钟占空比失真(DCD)感测和校正电路。这些组件在链路训练期间校准,时钟DCD校正环路通过运行时再校准在操作期间定期更新。
6 g& q! J% F; ^9 r, A4 d3 A% \) Q, R! A1 Z8 o' Y- R
每个通道内的数据路径由8:1串行器(实现为8:2串行器后接2:1多路复用器)、可编程前驱动器和驱动器级组成。每个TX通道支持全速率前驱动器和后驱动器环回功能,这对芯片间链路的晶圆筛选很重要。前驱动器将电平从核心电源(VDD)转换到驱动器电源(VCCIO)。
9 b$ ~: u8 z! z, o0 c/ B* ~3 }& F" U. m4 M) L8 @
驱动器图2(c)采用P+N over N CMOS架构,根据VCCIO值实现高摆幅和低摆幅操作。这种专用驱动器电源允许输出级以比核心电源更低的电压运行,实现低功耗配置。4 x# ]0 `  q% K+ Y6 m
2 t/ N7 k1 X" v
3+ z* t, m* _& o1 N
接收器设计
$ c1 b+ S7 r+ s4 B' A7 o2 I接收器设计与发射器架构互补,专注于在支持的数据速率范围内实现功率效率和信号完整性。/ q6 ~. z5 u5 _+ K7 I

f4ixomb55v16404237911.png

f4ixomb55v16404237911.png

1 @4 O/ y: r$ ]5 M. o图3说明了(a)接收器顶层组织结构,(b)RX前端模拟实现,以及(c)乒乓比较器架构的时序控制。) D8 b" Z9 i+ o; _# }

/ a0 W- B; [% }9 [+ i% K  G! `3 eRX顶层模块图3(a)由RX通道和CMOS时钟分布组成,将前向时钟和有效信号路由到各个通道。每个RX数据通道包含一个无终端模拟前端(AFE)、可编程去偏移模块、奇偶路径采样器、2:8解串器,并支持全速率环回模式。时钟通道仅包含AFE,其输出馈送到时钟分布网络。
- U  {. Q# s6 L8 U1 }6 m; {% W" A
全局时钟DCD通过训练期间的感测和校正机制进行校准,并通过运行时再校准在后台更新。虽然TX发送时钟的互补相位以确保与第三方UCIe接收器的互操作性,但此实现内部仅向数据通道分发时钟的单一相位,优化功耗。
5 J; y2 J2 r; C+ T& L7 u  E: ~2 b3 a6 N0 E2 o* N- A4 U
每个数据通道中的可编程去偏移模块使数据路径的延迟与时钟分布路径匹配,并在训练期间校准。RX前端图3(b)采用基于乒乓自动零点比较器架构,定期在两个比较器组之间切换传入数据,提供交替的预充电和评估周期。这种方法执行定期漂移消除,确保比较器输入处的偏移误差降低。$ _6 ~- }9 a7 s
9 D! P3 {  L$ H
乒乓控制逻辑模块图3(c)使用慢时钟(PCLK,约100MHz)生成控制信号,启用比较器的预充电和评估定时功能。它最小化比较器预充电周期的脉冲宽度以提高功率效率。参考电压(Vref)由8位数模转换器(DAC)生成,在链路训练期间校准以补偿数据路径DCD。+ E9 k) p' e" l( B7 {& Z

' ~4 m) D; \( o! r- A9 H( x该设计没有实现每通道时钟和数据恢复(CDR)电路,而是通过TX中的全局相位插值器(CPI和DPI)以及TX和RX中的每通道去偏移元素实现时钟定位。在链路训练期间,记录每个通道的CPI和DPI之间的最佳相对位置,并选择这些值的平均值作为全局相位插值器(PI)代码。然后通过校准TX和RX去偏移代码,对每个通道的最佳延迟进行微调。
$ R1 i) _1 [3 Q6 C( y& w6 ?
  r/ Y/ _1 H, t* F% q2 ]7 `! J运行期间的电压-温度(VT)漂移通过专用跟踪通道作为参考进行监测。基于这些信息,系统在定期运行时再校准间隔期间相应调整RX去偏移代码。
2 \) R# I+ C9 i) a$ N9 ^5 ]' {; x1 r+ X1 W8 d# W
4
6 x: T+ ?  ^  q) `; B  ~实现与性能
1 l  X% m( W" j5 VUCIe PHY模块采用3nm FinFET技术制造,微凸点间距为45μm。每个芯片内集成了四个UCIe模块,展示高带宽芯片应用场景。
4 O) T  M2 h" u) Z3 p2 s8 O( N3 i& F7 s

grprmi5g35a6404238011.png

grprmi5g35a6404238011.png
3 g% N8 {+ s$ W6 v) O
图4显示了封装显微照片,两个芯片通过2.5D CoWoS-S封装连接,芯片间信道长度约为1.4mm。; m" E- E- r2 |2 t
( {9 C  v' D# k/ y0 j3 Z2 h; ~
两个芯片在2.5D CoWoS-S封装内连接,芯片间信道长度约为1.4mm。每个芯片包含四个UCIe模块,两个模块之间的D2D连接由两个链路(TX+RX)组成。每个芯片有四个模块,这就产生了八个链路,能够处理8.192Tb/s的总数据流量。
. [% V; I& s* y4 F) B; d' A( R
/ L! A9 C7 `# ~+ K0 i$ y& X测量在低TX摆幅模式(VCCIO=0.45V)下进行,八个链路的所有通道均处于活动状态,使用PRBS23模式对链路施加压力,确保存在电源噪声和串扰条件。测试期间,所有UCIe模块通过数字LTSM中的训练进行自校准,调整相位插值器、RX和TX去偏移、占空比校正和参考电压设置。6 F/ I# R# u. l4 k% k/ B

iqohtwprhze6404238112.png

iqohtwprhze6404238112.png
6 w6 g0 a* N  J# I7 _4 {
图5显示了(a) 16Gb/s/pin运行时64个通道的综合眼图和(b)比较不同活动链路数量性能的浴盆曲线。
, ]" ~4 @( z1 n
7 |8 m) F" [& `/ F/ j: |( [! k7 ?通过扫描PI和Vref代码进行RX眼图扫描,在16Gb/s/pin运行时测量。图5(a)显示了一个链路的64个通道的综合眼图,显示0.56UI眼宽(EW)和220mV眼高(EH)。Vref代码根据低摆幅模式下测量的Vref DAC范围450mV映射到电压。) \0 ?) @# g8 C% n7 J2 h
8 j! h% R2 m$ q0 u" @4 P. N
浴盆曲线图5(b)为综合眼图生成,使用BER为10^-10和10^-11的测量数据,以及更低BER目标的预测数据。为评估高数据流量环境的影响,在两种情况下进行测量:只有两个UCIe链路活动(2.048Tb/s流量)和所有八个链路活动(8.192Tb/s流量)。1 x: S, x; U0 B6 P  s  \! U

0 T+ k) x6 Q) v; L$ w3 g, x- U在16Gb/s时,UCIe BER规范为10^-15。在这个BER下,两个链路活动时水平眼图开口为0.325UI,八个链路活动时为0.29UI。在更严格的BER级别10^-25和10^-27,当所有八个链路活动时,链路分别保持0.07UI和0.03UI开口。所有BER测量代表无前向纠错(FEC)或循环冗余检查(CRC)的原始性能。
6 }  n9 l) d4 O9 |3 _

ybbpqdffm1q6404238212.png

ybbpqdffm1q6404238212.png

6 l+ t; H' C# A: L) K- j9 j图6展示了(a) 12Gb/s/pin时的综合眼图,(b)多个数据速率的浴盆曲线,以及(c)电路模块间的功率效率分布。
+ D4 B  H7 Y5 y( R* e8 L/ L5 n+ s; }+ y' ^
图6(a)显示了12Gb/s/pin运行时测量的综合眼图扫描,眼宽为0.69UI,眼高为360mV。对于12、8和4Gb/s速率,UCIe BER规范更严格,为10^-27。图6(b)中的测量浴盆曲线表明,即使所有八个链路活动,链路在这一苛刻的BER级别下,对所有三种数据速率都能实现超过0.17UI的开口。
( a+ L; V  m" T+ _( C  L; E, ?+ p) [/ w4 l% i
链路在核心电源(VDD)0.75V、高电源(VDDH)1.2V和TX驱动器电源(VCCIO)0.45V下运行。一个UCIe模块消耗总计297mW的测量模拟功率,对应0.29pJ/bit的功率效率。不同电路模块间的功率分布如图6(c)所示,TX通道消耗33%的功率,RX消耗30%,包括PLL在内的TX公共电路需要37%。
0 r: }' K% A3 o& i1 z7 f1 |
% ?9 N! n5 z9 I4 G( O$ [链路实现5.27Tb/s/mm的边缘带宽密度。使用不增加延迟的流式控制器测量的触发器到触发器的延迟为3.5ns。
- \. W* O# ?' \6 m. a5 a: C) {. o7 F4 B' @' N
5
9 w9 A/ R, W& z7 E) G结论
) v+ m" Y3 @* y5 e; c# H引用的论文工作展示了一个完全符合UCIe标准的先进封装链路,运行速率高达16Gb/s/pin,具有卓越的0.29pJ/bit功率效率和5.27Tb/s/mm带宽密度。在3nm FinFET技术和2.5D CoWoS封装中的实现展示了标准化芯片间接口用于高性能芯片集成的潜力。
. [! k$ j  J$ o4 w$ s, Z% l  h) ~
" h* b5 q  |' I* W' d$ Y, A: Q关键创新包括具有全局相位插值的前向时钟架构、接收器中基于乒乓的自动零点比较器以及实现低功耗运行的P+N over N驱动器拓扑。该设计即使在多个活动链路产生的电源噪声和串扰存在的情况下也能实现优异的BER性能,证明了在实际高带宽芯片应用中的稳健性。
" Q* X2 ^- m8 b7 x8 o! I, u
) N) Y" B4 B# L  v! T3 y' K随着行业继续采用基于芯片的设计用于下一代计算系统,像UCIe这样的标准化接口将在实现可互操作生态系统方面发挥关键作用。这一实现证明符合行业标准不必牺牲性能,为芯片技术在计算、通信和其他高性能应用中的更广泛采用奠定了基础。# A) r( s; \8 d5 e

' H3 s: \! Q6 j6 Q4 Q! X参考文献3 s1 e  p. a6 k  |- `7 ?1 a
[1] D. T. Melek et al., "A 0.29pJ/b 5.27Tb/s/mm UCIe Advanced Package Link in 3nm FinFET with 2.5D CoWoS Packaging," in 2025 IEEE International Solid-State Circuits Conference (ISSCC), February 2025, pp. 590-591.- }3 A8 ~% }* Y" M3 Z# x8 \
END
, L4 M8 B: h% m$ U$ \
2 y1 N4 i6 C! r0 `软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。# t. q6 K" o7 U
点击左下角"阅读原文"马上申请0 b& @/ @% W' h; `7 p

& W( R0 q8 y* j' w" s欢迎转载$ Q( `* G% \; |

& P" T. P0 H& \$ j* r转载请注明出处,请勿修改内容和删除作者信息!
" y" |2 h4 K. ~0 d4 W$ e/ Q6 e/ X! k
! t% k8 y0 N4 U% W( R
6 M' u! e+ m! K4 O  Z

b2url4r2h2p6404238312.gif

b2url4r2h2p6404238312.gif
$ R: g/ U% x6 r, @  f" f) N2 Q! k
0 [7 e+ g: y5 Q3 s2 j
关注我们
; t2 W# X9 e; X# F( r) ]! @: D% g& w& |2 c- x, Z

# ?& V- J2 Q0 j

uirlmxjj15w6404238412.png

uirlmxjj15w6404238412.png

1 j! g$ U( o. V7 h' B

: G& e/ t; F4 L$ `

paj5rab0ll06404238512.png

paj5rab0ll06404238512.png

* S' e  ]. O5 p1 a
) k) M! Q6 e, L$ T; c' g) V

uqo5yokzcwb6404238612.png

uqo5yokzcwb6404238612.png

) {5 t( O' Z* `3 ]3 f% e; h  r, n& B
                      : s5 o! P  c! V0 R4 _* T
- N: {2 v4 ~8 @$ u! D8 Y! L

8 N( F3 B! M4 m3 i- U7 ]' V0 _% U6 y5 c( A. i: |8 {( Q; O" V
关于我们:' R' u% n& H9 [& R+ |( q
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。/ ~; u7 z8 m4 _/ D* g( Z

" N  ?8 `! h8 I& g1 F* x( Yhttp://www.latitudeda.com/
1 i4 M: m" `# K  K(点击上方名片关注我们,发现更多精彩内容)
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


联系客服 关注微信 下载APP 返回顶部 返回列表