电子产业一站式赋能平台

PCB联盟网

搜索
查看: 95|回复: 0
收起左侧

光计算 I/O 中的可靠性和延迟

[复制链接]

670

主题

670

帖子

5775

积分

四级会员

Rank: 4

积分
5775
发表于 2024-10-12 08:00:00 | 显示全部楼层 |阅读模式
引言
& P: I1 _! c, s" L在人工智能(AI)和高性能计算快速发展的世界中,数据传输和处理的需求不断挑战传统互连技术的极限。本文探讨光计算 I/O 中可靠性和延迟的关键方面,特别关注 AI 集群光连接的特殊要求[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!- N, l3 e9 a; {7 ]
; }' h3 e; N" {: j
人工智能集群光连接简介
+ P6 |9 J: E% ]* |AI 集群光连接是光计算 I/O 的一种专门变体,由于其具有挑战性,已经研究了几十年。这些连接可以根据其范围和技术broadly分为四类:
  • 集群:30-300m 范围,使用单模光纤(SMF)
  • 机架间:2-20m 范围,使用多模光纤(MMF)和单模光纤
  • 机架内(托盘):1-2m 范围,使用铜缆
  • 芯片到芯片(C2C):2-5mm 范围,使用铜迹线5 v9 p$ o$ d, r) b
    [/ol]
    " A5 O) d- T4 v' p9 F: b
    2 q  L0 \0 s4 I  _' Y* T7 M

    cvwxo0hlteb64082444720.png

    cvwxo0hlteb64082444720.png
    , `2 j& K6 |& f1 S3 P# J- v
    图 1:AI 集群连接类型、范围和使用的技术。
    5 A+ y: R6 u/ @5 ]4 u
    ! B8 W: j/ K! p' f; K- b( Z理想的 AI 光连接应结合铜和光技术的最佳属性:+ k  O1 P3 T5 t# w/ T7 f
  • 成本、功耗和可靠性与铜 I/O 相当(比当前光学技术低几个数量级)
  • 范围和密度类似于波分复用(WDM)或空分复用(SDM)
  • 延迟主要由传播延迟决定
    4 Q5 E" k+ V) m0 v3 M7 V
    1 C( }9 U, M6 E1 w- n* O

    % J5 c# r( y6 |5 J2 l2 C5 Q2 \光连接中的可靠性
    7 s1 _" k" X) E1 J2 I- [可靠性是 AI 集群光连接中的重要因素。当前的网络可靠性范式依赖于可靠性适中的可插拔模块,故障率通常在 30 到 100 FIT(每十亿小时故障次数)之间。然而,AI 连接要求更为严格,目标是达到与铜缆相当的可靠性,即低于 1 FIT。
    " e) i/ Q6 W% U5 Z" E& T9 S7 D' e% M" h$ ~/ b0 X' d
    为了实现如此高的可靠性,正在探索两种主要方法:
  • 开发本质上具有低 FIT 率的全新光器件
  • 实施新的系统级冗余技术; `: }! K/ _& @
    [/ol]
    $ l' U3 C- U+ `7 T让我们研究两个有望提高可靠性的技术实例:
    ! e$ R+ D0 w# E) v( x1. 量子点(QD)激光器
    - s" L8 X4 W& h量子点激光器在可靠性方面比传统量子阱(QW)激光器有显著进步。0 C$ ?) F6 t) y! s# z

    ipiyv5w1xlv64082444821.png

    ipiyv5w1xlv64082444821.png

    # D* F* v- k+ H- E! _! u图 2:量子阱(QW)和量子点(QD)结构比较。# N# [9 r) K5 c5 [7 k

    , l; @1 K( f* }7 y3 W7 tQD 激光器的可靠性比 QW 激光器高出 100 多倍。这种提高的可靠性源于几个因素:- d  G- H2 e# L9 _9 N5 f5 ~' {( _- V
  • QD 相互独立,将少数载流子与远处的缺陷隔离
  • QD 通过硬化晶格抑制缺陷的生长
  • QD 激光器的随机故障率比 QW 激光器低几个数量级
    ( r# K7 x. Q3 Q7 ?! X( R; H- W" v- F
    - f, v+ c8 h- F- n
    QD 激光器的一个主要优势是对暗线缺陷(DLD)的免疫力,这是 QW 激光器的常见故障模式。即使在活性区附近存在多个缺陷,QD 激光器也不会出现 DLD 生长,显著提高了寿命和可靠性。
      w7 H& g) {2 \* h/ H! g: v5 s: f( R* H
    2. 蓝色 LED 阵列
    # V; |+ K7 z# ?; c$ x另一种有望提高光连接可靠性的技术是使用蓝色 LED 阵列。这些阵列提供了几个优势:8 g7 S  G' Q5 X7 r- k$ |
  • LED 退化随时间呈对数模式
  • 基于 GaN 的 LED 具有较小的激活能,使其可靠性对温度波动不太敏感
  • 虽然可能会有初始功率下降,但平均寿命(功率降低到 50% 的时间)非常长7 W  H$ ^0 P, ]7 |9 W) J* c( z

    - |& T2 ~0 r! Z  d% A* W8 D
    # B+ }% y3 U$ s  ]  `3 `( O

    k3unpkmcgph64082444921.png

    k3unpkmcgph64082444921.png
    1 w5 z# w8 V% s: {- s
    图3:蓝色 LED 随时间的可靠性特性。# |9 }8 e* n9 P
    2 _1 X& m  m) E) H
    光连接中的延迟
    ) v7 J. N$ |  e5 g) x, O+ L; C延迟是 AI 集群光连接中另一个关键因素,特别是对于需要实时处理或节点间高速数据交换的应用。我们可以将延迟考虑分为两个主要类型:
  • 稳态延迟
  • 瞬态延迟
    " M7 l0 \' e" i1 ]! S[/ol]/ B- ^7 S: L  q6 m. p+ }7 P
    稳态延迟:光学 PCIe7 v6 `0 ~" n; c7 q: Y
    PCI Special Interest Group(PCI-SIG)目前正在制定工程变更通知(ECN),以支持 PCIe 6 的光缆。虽然没有规范的距离要求,但合理的目标约为 10 米。这带来了一些有趣的挑战和机遇:( }1 n  `+ r& {
  • 10m 链路的单程延迟为 50ns,往返延迟为 100ns
  • 这些延迟要求与传统以太网前向纠错(FEC)和光通信中通常使用的复杂数字信号处理(DSP)不兼容
  • 然而,10m 光链路在信号质量方面几乎是理想的,可能实现低于 1e-7 的误码率(BER),并具有较大的信噪比(SNR)裕度
  • 这一性能远低于 PCIe FLIT FEC 要求的 1e-6 BER,消除了对强 FEC 和复杂 DSP 的需求. ]4 d0 ~/ I7 J, v0 G: W( L. D

    ) y' m, w8 T7 @- A+ B. A3 ^当前 ECN 基准包括链路两端的重定时器,这消耗了整个延迟预算。然而,半重定时或非重定时配置可以轻松支持 10m 光链路,并具有更低的延迟。" ?" W9 X' H2 ]: I3 P/ A8 S
    % D0 q- v6 A6 K/ V# d: T
    瞬态延迟:光线路交换(OCS)
    3 d) V  ^% D. B% u' h光线路交换(OCS)已在一些大型数据中心(如谷歌)中部署用于网络重构。人们越来越有兴趣使用 OCS 进行流量交换,但这带来了重大挑战:
    % B% e1 e+ k' B1 J
  • OCS 的控制问题极其复杂,已经研究了几十年
  • 实现高速交换特别具有挑战性
  • 虽然许多关注点在于开发快速光交换器(有些报告微秒级交换速度),但高速光学器件通常需要数百毫秒才能在交换后稳定
  • 要实现纳秒或微秒级的交换速度,需要全新类型的光学 PHY(物理层接口)
    # a& `( K' [0 _2 L

    , L$ B6 y  w( r* ?; e2 p5 |结论
    8 g( T3 v. D* y# J9 X" X随着 AI 集群不断推动计算能力和数据处理的界限,对光互连的要求变得越来越严格。实现可靠性、延迟、成本和性能的理想平衡需要创新方法和新技术。
    * d# f6 q/ f5 Y  v' e7 ~0 o& T; u+ F6 S) R
    量子点激光器和蓝色 LED 阵列在显著提高光连接可靠性方面显示出希望,有可能使其与铜互连的稳健性相当。同时,需要仔细的设计考虑和光交换的新方法来满足 AI 应用的超低延迟要求。
    ! U% N" c; h; y/ M3 n- I4 d) A, H3 U
    + d! r$ w# a- O4 C  z# q6 H3 d0 u参考文献# e  j: t- ]$ A7 e; f/ S
    [1] C. Cole, "Reliability & Latency in Optical Computer I/O: Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.
    4 |/ S1 P, l( w: [9 C1 Q2 {' X- ?1 H9 x. O4 n
    - END -0 I* b  `! S2 A! n; G. I  p

    ; j4 z/ c" e; ], c: C软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    . x, C- R2 ?6 F: F5 d点击左下角"阅读原文"马上申请
    4 g- I: e1 M; e: `3 i% B! }6 [1 A8 _2 m% L
    欢迎转载
    6 c% _& o& E) q& a/ S4 r% z: G0 j5 g* I% q9 s4 n1 `
    转载请注明出处,请勿修改内容和删除作者信息!
    8 w1 q. ~- F+ u( |/ U2 z, ?/ B+ c# g5 D( }. O) `1 T/ B
    $ A6 ?3 e8 a& b9 Z3 f9 Z# {

    , U# I# _- G* j( e9 ?6 n1 ]$ q

    hk0f4llmqpt64082445021.gif

    hk0f4llmqpt64082445021.gif

    : U( R9 L4 ^, \/ _
    0 l- _) `6 p6 C. x关注我们
    5 ^* i) ~/ N' b( R; r: d  d' H
    * u* t/ z# N, j' ^; B0 q

    mcz1n1lot5364082445121.png

    mcz1n1lot5364082445121.png

      F" J. m  \( X! }& a$ g1 ^: U

    % {& I" o6 }7 N$ c7 a  X

    pqlqqazqnd364082445221.png

    pqlqqazqnd364082445221.png
    " r) p$ h2 H1 W: I. C8 T# d

    ' Z, U5 q4 e$ @% W+ T) v# J

    0xpnyyjokxh64082445321.png

    0xpnyyjokxh64082445321.png

    ) T) t+ x6 q; F1 u; \- A: W' d  ]
                          / `. d' d% F: l' B

    1 r$ Y/ |$ }$ A* |* e; Z

    7 k8 j! f% }7 H8 ?' o! X5 O" P8 v$ O, q+ Y! u( `' ^1 N
    关于我们:
    ) g( p! W+ o& J2 ]- }深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。& f; Q# @  ^: @. |
    : E. Y' |. p& U6 d  W+ b8 z
    http://www.latitudeda.com/
    % G, y. W5 X: _  p8 X1 C" ^+ ~(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表