|

引言
' ^9 A# y* U0 T, w( c* Q. a; }* z$ f在人工智能(AI)和高性能计算快速发展的世界中,数据传输和处理的需求不断挑战传统互连技术的极限。本文探讨光计算 I/O 中可靠性和延迟的关键方面,特别关注 AI 集群光连接的特殊要求[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!) @/ y7 q4 W/ D: B3 J# i
; p1 B% u' t& ]9 @
人工智能集群光连接简介
i" ^, ?' r: X- a) R# o. \' tAI 集群光连接是光计算 I/O 的一种专门变体,由于其具有挑战性,已经研究了几十年。这些连接可以根据其范围和技术broadly分为四类:集群:30-300m 范围,使用单模光纤(SMF)机架间:2-20m 范围,使用多模光纤(MMF)和单模光纤机架内(托盘):1-2m 范围,使用铜缆芯片到芯片(C2C):2-5mm 范围,使用铜迹线
+ |* B$ e0 L% b. y2 A: g[/ol]
0 V) u7 J; {, P- y& Y9 c! t
7 t( J: j' o3 _$ B
cvwxo0hlteb64082444720.png
: g! v4 ?% g) r0 p
图 1:AI 集群连接类型、范围和使用的技术。
6 j, n& ]6 W4 Q# y
1 f% D1 Z. f8 P) ~6 i- k理想的 AI 光连接应结合铜和光技术的最佳属性:
0 Z" I4 I% {1 N3 k1 p$ N8 K成本、功耗和可靠性与铜 I/O 相当(比当前光学技术低几个数量级)范围和密度类似于波分复用(WDM)或空分复用(SDM)延迟主要由传播延迟决定2 o& d! J+ I5 F% w
. l& E' C- T+ B6 G2 o6 W
; ?2 ]5 X4 \) c8 G" M0 V# R* ^: o& O光连接中的可靠性) V# d7 v' K) [# g- f8 \
可靠性是 AI 集群光连接中的重要因素。当前的网络可靠性范式依赖于可靠性适中的可插拔模块,故障率通常在 30 到 100 FIT(每十亿小时故障次数)之间。然而,AI 连接要求更为严格,目标是达到与铜缆相当的可靠性,即低于 1 FIT。0 x: K7 i- C& j6 \
( t) o1 _# M1 m
为了实现如此高的可靠性,正在探索两种主要方法:开发本质上具有低 FIT 率的全新光器件实施新的系统级冗余技术
7 n& O! v% L* |. X7 l4 ][/ol]
( C; p; }: r4 E0 J! z让我们研究两个有望提高可靠性的技术实例:2 A* D# `: N; w0 ]4 b( Y7 @
1. 量子点(QD)激光器+ x6 q3 Z- P& W3 _* q: a& u# u
量子点激光器在可靠性方面比传统量子阱(QW)激光器有显著进步。# K+ o( r/ N- Y8 c
ipiyv5w1xlv64082444821.png
7 `8 Z5 p5 q4 L1 e5 j) ]# ^0 ?3 M图 2:量子阱(QW)和量子点(QD)结构比较。7 n- Y K' M- b" a2 j
. j! B/ W) Q5 W2 c) l$ \QD 激光器的可靠性比 QW 激光器高出 100 多倍。这种提高的可靠性源于几个因素:
/ c! g9 O. v- I- ~0 F2 cQD 相互独立,将少数载流子与远处的缺陷隔离QD 通过硬化晶格抑制缺陷的生长QD 激光器的随机故障率比 QW 激光器低几个数量级
4 E4 r. X8 I) H R" ?. m: i9 @! T; @! m8 R9 i* c8 Q
QD 激光器的一个主要优势是对暗线缺陷(DLD)的免疫力,这是 QW 激光器的常见故障模式。即使在活性区附近存在多个缺陷,QD 激光器也不会出现 DLD 生长,显著提高了寿命和可靠性。1 n9 s9 w5 k! ^8 q8 _! |
8 S: Q% j# {4 L& m; e
2. 蓝色 LED 阵列
! L9 h! X" b# d0 I/ c" p. I另一种有望提高光连接可靠性的技术是使用蓝色 LED 阵列。这些阵列提供了几个优势:5 a2 _1 i% U9 Q, o! X# i
LED 退化随时间呈对数模式基于 GaN 的 LED 具有较小的激活能,使其可靠性对温度波动不太敏感虽然可能会有初始功率下降,但平均寿命(功率降低到 50% 的时间)非常长7 I3 G* I% N4 k
7 P( Q8 p, c6 F2 N
3 E/ m7 @4 `+ N8 a# T9 [
k3unpkmcgph64082444921.png
0 k- h6 w/ K8 r' n9 A) ?) Y图3:蓝色 LED 随时间的可靠性特性。" \( m! X# G4 ]: _" e
[& U+ v9 k* C9 |# N% E
光连接中的延迟; P8 T4 a7 n2 b
延迟是 AI 集群光连接中另一个关键因素,特别是对于需要实时处理或节点间高速数据交换的应用。我们可以将延迟考虑分为两个主要类型:稳态延迟瞬态延迟
# v& ?$ v/ B$ E7 h4 Z2 u( Y[/ol]
$ l, y- J& M4 o1 h5 P! D- O Y稳态延迟:光学 PCIe4 T9 t$ l6 b1 f
PCI Special Interest Group(PCI-SIG)目前正在制定工程变更通知(ECN),以支持 PCIe 6 的光缆。虽然没有规范的距离要求,但合理的目标约为 10 米。这带来了一些有趣的挑战和机遇:
& A; A- D8 E' h, Q* b10m 链路的单程延迟为 50ns,往返延迟为 100ns这些延迟要求与传统以太网前向纠错(FEC)和光通信中通常使用的复杂数字信号处理(DSP)不兼容然而,10m 光链路在信号质量方面几乎是理想的,可能实现低于 1e-7 的误码率(BER),并具有较大的信噪比(SNR)裕度这一性能远低于 PCIe FLIT FEC 要求的 1e-6 BER,消除了对强 FEC 和复杂 DSP 的需求
; S1 h7 ]3 i; \* [8 B0 C5 n. u) s. Q
8 A; n* ]) ^" q/ x, m8 a当前 ECN 基准包括链路两端的重定时器,这消耗了整个延迟预算。然而,半重定时或非重定时配置可以轻松支持 10m 光链路,并具有更低的延迟。2 D4 Q( n2 L% N
6 a1 d0 k6 W0 Y p6 b瞬态延迟:光线路交换(OCS)! ^2 d; C9 k2 L) W8 v
光线路交换(OCS)已在一些大型数据中心(如谷歌)中部署用于网络重构。人们越来越有兴趣使用 OCS 进行流量交换,但这带来了重大挑战:
1 k1 {% J& `7 y) u BOCS 的控制问题极其复杂,已经研究了几十年实现高速交换特别具有挑战性虽然许多关注点在于开发快速光交换器(有些报告微秒级交换速度),但高速光学器件通常需要数百毫秒才能在交换后稳定要实现纳秒或微秒级的交换速度,需要全新类型的光学 PHY(物理层接口)
8 {& i0 T9 S8 T$ {; @# {5 C& N1 ~8 Z. ]) A/ {
结论! k! _/ m% q0 m. g. q* O
随着 AI 集群不断推动计算能力和数据处理的界限,对光互连的要求变得越来越严格。实现可靠性、延迟、成本和性能的理想平衡需要创新方法和新技术。
/ {6 L9 D2 |. m& d) M$ d- a+ A% K9 B7 _
量子点激光器和蓝色 LED 阵列在显著提高光连接可靠性方面显示出希望,有可能使其与铜互连的稳健性相当。同时,需要仔细的设计考虑和光交换的新方法来满足 AI 应用的超低延迟要求。
. i) m5 f/ S5 G" Z& p4 T, f; f$ i8 [
参考文献
( @& b* \. c8 M$ t; W M[1] C. Cole, "Reliability & Latency in Optical Computer I/O: Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.
" B7 i$ L: \4 d, q* n. g5 P. s; q6 o# l8 K
- END -, ^; ^4 F9 k0 ^0 x9 e
+ ?* S- l. D d. P' J软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
; F. E2 ^4 \' l: a% P% [" a; p/ ^点击左下角"阅读原文"马上申请
! y3 `3 B7 Z1 x6 {: y
: s: [# Y9 Z/ u! p欢迎转载! E9 d# u* K* i5 u( X" R
: G, ?. f+ h+ r0 i" W转载请注明出处,请勿修改内容和删除作者信息!
1 b8 ]$ V h1 }8 b: X8 r1 c! _" L+ Q9 I
4 L$ T, E6 u; B
6 K8 n& T5 v; {$ F7 Q' `
hk0f4llmqpt64082445021.gif
/ O, C" B9 a' N: y* |6 _ i8 y& Y4 ^( V9 O
关注我们( P: Z0 h$ B+ D; k4 w& i- Y4 ]
- }) _- }! ~/ q/ ?% K2 Q) m! \0 F4 i- R; v8 y0 p( C
mcz1n1lot5364082445121.png
# ^ j; |' l# K) l: r& S) { | $ x) ?) _8 T# d/ Q# X
pqlqqazqnd364082445221.png
* L4 _6 ^/ R4 ^! A4 b: O
|
& ~& ]1 V9 C- u2 {6 x* m
0xpnyyjokxh64082445321.png
) q8 V3 J6 c" ~9 R' U' o
| 2 E4 |% k0 N+ u+ N4 f, L% ^* O
! y% j; [2 f2 U; z# `
6 a( y- s3 x$ L! J+ l9 g
1 n* W5 P0 O9 A0 j& t关于我们:5 b4 \6 O3 w4 U6 ^" u: ^2 h2 X
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。+ @$ i( Q4 c3 u" ^; g, c
( D/ N: d7 f! a- M
http://www.latitudeda.com/, p3 @& {+ }1 J
(点击上方名片关注我们,发现更多精彩内容) |
|