|
引言
. B' u3 o& t1 B4 L3 ]3 [7 F& B在数据中心技术快速发展的背景下,尤其是人工智能(AI)和机器学习(ML)应用对更高吞吐量能力的需求日益增长。本文探讨一种创新的212Gb/s PAM-4重定时器,该重定时器集成了高摆幅光驱动器和具有40dB长距离能力的芯片到模块(C2M)接口,旨在满足现代数据中心不断增长的带宽需求,同时保持功率效率[1]。
?4 F4 x, w+ @3 L
hdmt4aypb2f640168631.png
+ Q7 S% j. ^, e/ S& F# I$ L* B
/ w) x \+ G* x- i* Q, Q9 ]1
O6 [( X+ H% N" y) J下一代光学接口简介
% g+ A) n0 O2 ^& {1 iAI和ML工作负载的爆发式增长使现有数据中心基础设施面临极限挑战。超大规模环境中的机架顶部交换机现在需要每lambda 200Gb/s的数据速率,同时遵守OSFP-XD等多源协议(MSA)定义的严格功率预算。传统方法通常涉及多个分立组件,增加了功耗、开发成本和整体尺寸。
2 L" J" B6 D: q
/ _8 |$ [) s6 S& }. ?0 @& E所介绍的212Gb/s PAM-4重定时器旨在通过在线路发送器上直接集成高性能光驱动器,同时提供卓越的芯片到模块(C2M)接口功能来解决这些挑战。这种集成消除了对外部激光驱动器的需求,显着节省功率并减小尺寸。此外,C2M接口可以均衡高达40dB的通道损耗,适用于在基于GPU的机架中驱动长电气互连。# r. O5 S# I0 K; {5 Y5 G' \$ y0 @
; `1 _- u8 v$ ~8 V4 D2
- S# v3 a- t6 d0 ~系统架构概述
% G. @! y, j. h" J
hk4b5apnrse640168731.png
0 d& B% J$ T$ _( W D6 H/ ]! k
图1:光学重定时器的整体架构,展示了其在线路和C2M接口上的4通道212.5Gb/s收发器设计。每个接口包括针对各自角色优化的专用组件。/ c& t, q, \ U& c% [
- x- G) j; D |3 [3 a两个接口上的发送器(TX)架构都从数字/DSP部分开始,随后是数字预失真滤波器,该滤波器调整PAM-4内部电平并补偿非线性失真。这与提供前置均衡以克服通道带宽限制的FIR滤波器相辅相成。信号通过模拟部分串行化后,进入驱动器阶段。' {* a- a2 Y3 L |* c
7 l- ` x1 N5 M) K" h/ e接口之间的主要区别在于其驱动器实现:线路接口采用DAC后接高摆幅线性驱动器,而C2M接口使用直接DAC驱动方法。C2M接口的这种设计选择适应较低的摆幅要求,从而提高功率效率。% A9 w9 J, ~( s) s2 p. u
" ^ n' ^' m2 b6 O
在接收器(RX)方面,设计在线路接口使用模拟前端(AFE),在C2M接口使用连续时间线性均衡器(CTLE)。这些后接异步ADC对输入信号进行采样。前馈均衡器(FFE)与反射消除器配合工作以均衡采样信号,而决策反馈均衡器(DFE)或最大似然序列检测器(MLSD)可根据特定通道条件启用以实现更高性能。
A! U; O8 }7 N t+ ~6 a1 H2 V
( o* Q( b, S1 B, W3& Y1 A8 y: u9 Y" D" O2 C& q3 i$ |
发送器设计与实现$ [) n5 D7 E, v
fwbaz0vmurs640168832.png
+ h0 o, Z+ P# M2 ~8 f图2:发送器拓扑的详细视图。该设计处理来自TX数字部分的128个并行8位数据流,将其输入到四个32:1串行器切片中。每个串行器分为三个串行化阶段,以高效管理高速数据转换。
9 w# F0 E& a& }6 x- P" F
: b: p4 Y# S- Z3 ~: v6 ^* c9 S* P7 A) i串行化的四分之一速率数据在到达4:1 DAC之前从单端转换为差分信号。在此阶段,DAC使用25%占空比(1UI时钟)的专用4相时钟将四分之一速率数据时分复用为全速率数据。这些精确的定时时钟通过复杂的时钟路径生成,其中TX PLL向IQGEN分配互补的4UI时钟,然后将其转换为4个时钟相位。- l( V% m: B& C8 p5 k
% ~6 [+ H- ]2 a0 F3 F! D为确保信号完整性,时钟路径包括几个关键组件:
: C$ p$ I) S! n; y: q用于偏移校正的相位微调器
) D# E* D2 K% z7 K5 x# F最小化抖动放大的亚UI抖动均衡器
2 Y% J$ \5 e' I& E' d. {$ r% l解决占空比失真的占空比校正(DCC)模块2 c) Z( K6 a; }
产生4相精确1UI时钟的1UI生成器
) E: {4 N$ v1 W7 l2 w1 @8 ?/ k/ y) Y, ?. x
此外,相位检测器持续监测虚拟2:1多路复用器数据与1UI时钟之间的相位差,使低速相位插补器能够调整数据延迟以获得最佳建立/保持时间。- p5 A1 B$ A9 |! o L/ H5 b p
3 i' x8 W. x% ]7 m$ s6 E( r5 hC2M TX DAC设计特别值得注意。它由四个切片组成,每个切片从相应的32:1串行器接收伪差分8位数据。每个切片中的DAC单元处理四分之一速率数据信号,并使用精确定时的1UI时钟将其转换为全速率电流。PMOS预充电器件最小化中间节点的数据相关内存效应,增强信号保真度。" v2 @- ~5 y1 B& h' ~! T
K! M# y1 T% ^7 `4 }& Y9 J6 f
所有DAC切片的输出电流以电流模式求和,通过T线圈连接到片上终端电阻负载,T线圈延长了带宽并改善了高数据速率下的信号完整性。
' S9 Z. J4 s- X0 ~) w; Q1 Z
1 ?2 y( A0 N, d5 ]0 C, t$ `; ]. k4
) [) |9 o3 S2 S- ?- r高摆幅线路TX驱动器& B2 U! X6 `' z# y% ?
p3r3vvsgfnx640168932.png
* k% W7 _% q# z. Z3 P
图3:高摆幅线路TX驱动器设计,由三个主要部分组成:4:1 DAC、前驱动器和最终驱动器级。DAC电流求和并通过级联器件在电阻上转换为电压,提供低阻抗看向DAC,从而实现高带宽。
: d2 I" q/ g: Y; t
. [2 R" w7 a( R在级联输出使用T线圈进行带宽扩展,然后AC耦合到前驱动器部分。前驱动器采用翻转电压跟随器(FVF)架构,服务于双重目的:将驱动器的大电容负载与DAC隔离减少驱动器级的反冲
+ E+ w. L$ {8 m9 _+ X9 P[/ol], @3 D, y/ u/ _! H
前驱动器分为两半:一个PMOS FVF连接在驱动器电源电压(VDD)和中间电压(Vddhalf)之间,一个NMOS FVF连接在Vddhalf和全局地之间。这种配置在保持信号完整性的同时优化功率效率。
: ]3 g3 @3 \# Q, q: n7 b G: f
7 w8 \! ~: N* Y- O7 l9 Z输出驱动器采用功率优化的推挽式架构,顶部使用PMOS跨导器件,底部使用NMOS跨导器件。每个后接两个级联器件,具有适当偏置以防止器件过压应力。差分输出连接到带T线圈的片上终端,用于带宽扩展,确保即使在极高数据速率下也能保持最佳信号质量。
) J7 M0 W; G4 s! R" X& v# D
( o: m( {- O. t+ K5
' g. \* o/ V5 q. s: ?& g- K5 n* n/ _% J接收器架构与性能2 v/ a2 n+ a6 ^! F( F& n: Z, x: q4 M. e
camwnlfobkc640169032.png
2 `5 ]( U/ U, T- L2 Y5 l图4:C2M RX 架构框图以及低频正弦输入信号的 C2M RX AFE SNDR。9 L c+ i4 D: j$ g1 G9 D
! H" D5 Y6 l m2 I" Z7 D% h% x图4展示了C2M接口的接收器拓扑。接收信号通过由几个专用组件组成的AFE:
$ o- c3 F. ?0 M2 y输入匹配网络* W3 Y( f6 ?" n2 v" }* x9 o9 c
连续时间线性均衡器(CTLE)
. |$ j' k' ^. ] L# p1 d9 R跨导(Gm)缓冲器/ K* C9 v2 R" L
跨阻抗放大器(TIA)
/ R; F+ T; @( m% U1 u1 Q+ ~/ }) p: y* v0 W: S9 c
输入网络使用带T线圈的差分终端电阻进行带宽扩展。CTLE采用基于NMOS的共源放大器,具有电阻和电容退化。退化节点处的T线圈减少输入共模回波损耗,而输出处的另一个T线圈进一步扩展带宽。输入中和电容消除米勒电容,改善高频性能。
8 J R( K/ s2 [! S( m, @6 J% g2 d: T5 _) W
Gm缓冲器和TIA采用推挽式架构,通过串联感应峰化实现功率效率。AFE路径中的所有串联电感都包括短路开关,允许根据通道条件进行带宽可编程。, i* {! x6 F4 Y! J
7 R# n% e R5 A" }' I; _9 u
经过信号调理后,AFE输出由复杂的7位106.25GS/s 128路时间交错(TI) SAR ADC采样,具有2级层次结构。在第一级中,TIA输出由16个跟踪保持(TAH)开关采样,脉冲宽度为2UI,时钟周期为16UI。每个TAH通道都包含一个Buffer2,驱动第二级层次结构中的8个时间交错异步SAR ADC。Buffer2使用PMOS FVF架构实现更高带宽,并最小化SAR ADC输入处的符号间干扰。' p8 t# k7 R2 n6 L9 n4 b0 x" D
2 ^* X' j0 f7 U8 C$ b2 v图4右侧部分展示了C2M RX模拟前端对低频正弦输入信号的SNDR,显示约34dB的令人印象深刻的SNDR,证实了接收器设计的高质量信号调理能力。9 e3 L) E; l) { U
0 f5 m* i3 p/ R- O( o; G6
' W& E. Y0 @% [时钟生成与性能结果
+ j6 d6 m( j' I) e时钟生成包括每个TX的独立锁相环(PLL)和每个RX中基于PLL的时钟和数据恢复(CDR)电路。PLL具有宽带宽以减轻VCO耦合效应,并使用带delta-sigma抖动的多模数分频器实现分数N操作。通过使相位频率检测器-电荷泵以非零输入相位偏移运行来减轻delta-sigma噪声折叠。5 a% P8 n) J' y+ R3 c
( U/ K4 ~3 r- c' N电压控制振荡器(VCO)使用B类LC谐振设计,带双尾部2次谐波谐振电感以减少闪烁噪声上变频。VCO在26.5GHz下工作,调谐范围超过28%,为各种操作条件提供所需的灵活性。SPLL输出通过开漏CML基谐振时钟结构分配,实现功率高效的长距离传输。) i* J6 ~4 t+ u
wbzai1risgw640169132.png
% c7 u3 z2 o* C) [& n' W# }
图5:展示了C2M接口的性能结果。C2M RX幅度响应在46GHz处显示16dB的最大峰值,三个峰值曲线显示了针对不同通道损耗情况的可调设置。在各种电压和温度下进行的抖动容限测量表明,相对于IEEE规范有足够的余量。
9 y5 g' b3 C' k u: _2 ?
* Y3 Z! s4 c0 ]6 r9 u5 v使用106.25Gbaud的PRBS11 PAM-4模式测量的TX眼图,在去嵌入测量夹具并后处理线性拟合脉冲响应后,显示60GHz带宽和0.9Vppd摆幅。启用MLSD后,C2M接口在奈奎斯特处40dB损耗通道上实现1.8e-10的位错误率(BER)和23.5dB的信噪比(SNR)——对于如此具有挑战性的通道条件而言,这是一项令人印象深刻的成就。
! w/ J1 L5 ]0 y0 D# \7 t/ j( |
xihworgjud5640169232.png
# T& H/ Z& A( J, W5 ^* Q0 {
图6:其他性能指标包括40dB损耗通道C2M RX的恢复预FEC信号直方图。该图还突出显示了带集成高摆幅驱动器的线路TX性能。使用106.25Gbaud的PRBS11模式的PAM-4电气眼图在去嵌入后显示3Vppd摆幅,54GHz带宽和0.997的相对电平失配(RLM)。' P0 g4 b; C: ~1 n* o( h
3 U9 o9 p8 Z1 |# ]: m4 R; Y3 S1 g在800G OSFP DR4模块上测量的光学眼图,使用集成高摆幅驱动器驱动马赫-曾德尔调制器,显示了2.04dB的具有竞争力的发送器色散和眼图闭合四电平(TDECQ)值和0.994的RLM。这些结果验证了集成高摆幅驱动器在实际光学应用中的有效性。2 d$ d# O' r$ \# k: M
0 O R! Q, R8 i* E8 N; |
图6中的比较表显示,相对于其他最先进的设计,此重定时器解决方案实现了具有竞争力的功率和性能指标,强调了其对下一代数据中心应用的价值。
& @+ f8 |5 O# f8 R% {
5j31lgg2cp4640169332.png
& J/ `1 f0 p O! B2 ^6 o图7:制造芯片的芯片照片,显示了线路和C2M接口的布局。该芯片采用5nm FinFET工艺制造,代表了高速通信应用半导体技术的最前沿。
5 f( ]* G& E4 \# \% S; v( b% X
[8 N5 J7 z1 I8 j: d7
; k3 h- Y% s8 \* V, Z0 i结论) Y7 m) x9 S/ t) |. b
带集成高摆幅光驱动器和40dB C2M范围能力的212Gb/s PAM-4重定时器代表了光收发器技术的重大进步。通过集成关键组件并优化设计以同时实现性能和功率效率,该解决方案满足了数据中心环境中AI和ML应用日益增长的带宽需求。
; [* _ H% s& @3 T! B8 E7 c e: W& S0 _
集成高摆幅驱动器消除了对外部激光驱动器的需求,降低了系统复杂性、功耗和尺寸。同时,C2M接口出色的均衡能力使长距离应用成为可行,使该技术适用于现代基于GPU的计算机架日益复杂的互连需求。# Y: S& o, \ N0 c' u6 i
* x. Q6 c7 H) Q随着数据速率不断提高,功率预算变得更加严格,像这样的集成解决方案将在支持下一代高性能数据中心基础设施方面发挥关键作用。
: ?$ k8 |2 R6 z# i
8 A* J ^6 _1 P2 s参考文献
8 [2 _( l# I2 {+ N[1] V. Gurumoorthy et al., "A 212Gb/s PAM-4 Retimer with Integrated High-Swing Optical Driver and Chip-to-Module Long Reach Capability of 40dB in 5nm FinFET," in 2025 IEEE International Solid-State Circuits Conference (ISSCC), Feb. 2025, pp. 602-603.: [7 R0 Q" m& R/ w, \# D
END
4 M3 L% C- A: u! e# m7 n) e4 x7 R ~0 ]; j' i8 l
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
3 d; G( i3 {0 Z/ ~点击左下角"阅读原文"马上申请# A, L4 V4 y7 ^1 F
, U7 F- J/ Z* I- O) n" a( _- L欢迎转载 X: P6 K3 T4 s0 }
7 I, p( ~! C2 @; Z
转载请注明出处,请勿修改内容和删除作者信息!
7 m, c: v9 b$ N* j B
7 h: N: @! G. W0 z* [* J V$ j+ S4 X: W4 X/ Z5 u
8 T+ u' f+ C3 H2 I
lz55f34uc21640169432.gif
: `1 ^1 k: K! ]. h, ^3 W, d
6 \1 t' \" C( W) j$ t/ N8 H1 v n B关注我们
7 V4 F: T0 G9 ^2 G, z; B5 Z4 P1 p
! w7 k% v, g* R
: l- W) {5 b. F# `/ \1 F, S, `
0xz0zjjymsr640169532.png
2 ~# f/ P9 N. a" _( C( Z
| 1 H4 K/ k! R$ Z
rbkociay21p640169632.png
2 f& Y4 b9 B2 j" k
| 7 G% U9 L" T- a% Q
0c4ltzzaihz640169732.png
6 y4 p/ w( w; y, W% g) G+ [$ V0 l
|
% }# j- a" R8 Z( J( x
! S+ @( I& h$ D J- k6 y
9 c3 W: u5 {; b+ r$ Z9 y, H) G9 t" U& }1 @
关于我们:5 q, J3 }1 T* g+ L+ A
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
8 u' w. [$ @( g# \$ K( m7 P$ z1 z( J! c
http://www.latitudeda.com/" l! p! {6 k/ ]# }9 i5 w
(点击上方名片关注我们,发现更多精彩内容) |
|