电子产业一站式赋能平台

PCB联盟网

搜索
查看: 302|回复: 0
收起左侧

光计算 I/O 中的可靠性和延迟

[复制链接]

1056

主题

1056

帖子

1万

积分

论坛法老

Rank: 6Rank: 6

积分
11032
发表于 2024-10-12 08:00:00 | 显示全部楼层 |阅读模式
引言
' ^9 A# y* U0 T, w( c* Q. a; }* z$ f在人工智能(AI)和高性能计算快速发展的世界中,数据传输和处理的需求不断挑战传统互连技术的极限。本文探讨光计算 I/O 中可靠性和延迟的关键方面,特别关注 AI 集群光连接的特殊要求[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!) @/ y7 q4 W/ D: B3 J# i
; p1 B% u' t& ]9 @
人工智能集群光连接简介
  i" ^, ?' r: X- a) R# o. \' tAI 集群光连接是光计算 I/O 的一种专门变体,由于其具有挑战性,已经研究了几十年。这些连接可以根据其范围和技术broadly分为四类:
  • 集群:30-300m 范围,使用单模光纤(SMF)
  • 机架间:2-20m 范围,使用多模光纤(MMF)和单模光纤
  • 机架内(托盘):1-2m 范围,使用铜缆
  • 芯片到芯片(C2C):2-5mm 范围,使用铜迹线
    + |* B$ e0 L% b. y2 A: g[/ol]
    0 V) u7 J; {, P- y& Y9 c! t
    7 t( J: j' o3 _$ B

    cvwxo0hlteb64082444720.png

    cvwxo0hlteb64082444720.png
    : g! v4 ?% g) r0 p
    图 1:AI 集群连接类型、范围和使用的技术。
    6 j, n& ]6 W4 Q# y
    1 f% D1 Z. f8 P) ~6 i- k理想的 AI 光连接应结合铜和光技术的最佳属性:
    0 Z" I4 I% {1 N3 k1 p$ N8 K
  • 成本、功耗和可靠性与铜 I/O 相当(比当前光学技术低几个数量级)
  • 范围和密度类似于波分复用(WDM)或空分复用(SDM)
  • 延迟主要由传播延迟决定2 o& d! J+ I5 F% w
    . l& E' C- T+ B6 G2 o6 W

    ; ?2 ]5 X4 \) c8 G" M0 V# R* ^: o& O光连接中的可靠性) V# d7 v' K) [# g- f8 \
    可靠性是 AI 集群光连接中的重要因素。当前的网络可靠性范式依赖于可靠性适中的可插拔模块,故障率通常在 30 到 100 FIT(每十亿小时故障次数)之间。然而,AI 连接要求更为严格,目标是达到与铜缆相当的可靠性,即低于 1 FIT。0 x: K7 i- C& j6 \
    ( t) o1 _# M1 m
    为了实现如此高的可靠性,正在探索两种主要方法:
  • 开发本质上具有低 FIT 率的全新光器件
  • 实施新的系统级冗余技术
    7 n& O! v% L* |. X7 l4 ][/ol]
    ( C; p; }: r4 E0 J! z让我们研究两个有望提高可靠性的技术实例:2 A* D# `: N; w0 ]4 b( Y7 @
    1. 量子点(QD)激光器+ x6 q3 Z- P& W3 _* q: a& u# u
    量子点激光器在可靠性方面比传统量子阱(QW)激光器有显著进步。# K+ o( r/ N- Y8 c

    ipiyv5w1xlv64082444821.png

    ipiyv5w1xlv64082444821.png

    7 `8 Z5 p5 q4 L1 e5 j) ]# ^0 ?3 M图 2:量子阱(QW)和量子点(QD)结构比较。7 n- Y  K' M- b" a2 j

    . j! B/ W) Q5 W2 c) l$ \QD 激光器的可靠性比 QW 激光器高出 100 多倍。这种提高的可靠性源于几个因素:
    / c! g9 O. v- I- ~0 F2 c
  • QD 相互独立,将少数载流子与远处的缺陷隔离
  • QD 通过硬化晶格抑制缺陷的生长
  • QD 激光器的随机故障率比 QW 激光器低几个数量级
    4 E4 r. X8 I) H  R" ?
    . m: i9 @! T; @! m8 R9 i* c8 Q
    QD 激光器的一个主要优势是对暗线缺陷(DLD)的免疫力,这是 QW 激光器的常见故障模式。即使在活性区附近存在多个缺陷,QD 激光器也不会出现 DLD 生长,显著提高了寿命和可靠性。1 n9 s9 w5 k! ^8 q8 _! |
    8 S: Q% j# {4 L& m; e
    2. 蓝色 LED 阵列
    ! L9 h! X" b# d0 I/ c" p. I另一种有望提高光连接可靠性的技术是使用蓝色 LED 阵列。这些阵列提供了几个优势:5 a2 _1 i% U9 Q, o! X# i
  • LED 退化随时间呈对数模式
  • 基于 GaN 的 LED 具有较小的激活能,使其可靠性对温度波动不太敏感
  • 虽然可能会有初始功率下降,但平均寿命(功率降低到 50% 的时间)非常长7 I3 G* I% N4 k

    7 P( Q8 p, c6 F2 N
    3 E/ m7 @4 `+ N8 a# T9 [

    k3unpkmcgph64082444921.png

    k3unpkmcgph64082444921.png

    0 k- h6 w/ K8 r' n9 A) ?) Y图3:蓝色 LED 随时间的可靠性特性。" \( m! X# G4 ]: _" e
      [& U+ v9 k* C9 |# N% E
    光连接中的延迟; P8 T4 a7 n2 b
    延迟是 AI 集群光连接中另一个关键因素,特别是对于需要实时处理或节点间高速数据交换的应用。我们可以将延迟考虑分为两个主要类型:
  • 稳态延迟
  • 瞬态延迟
    # v& ?$ v/ B$ E7 h4 Z2 u( Y[/ol]
    $ l, y- J& M4 o1 h5 P! D- O  Y稳态延迟:光学 PCIe4 T9 t$ l6 b1 f
    PCI Special Interest Group(PCI-SIG)目前正在制定工程变更通知(ECN),以支持 PCIe 6 的光缆。虽然没有规范的距离要求,但合理的目标约为 10 米。这带来了一些有趣的挑战和机遇:
    & A; A- D8 E' h, Q* b
  • 10m 链路的单程延迟为 50ns,往返延迟为 100ns
  • 这些延迟要求与传统以太网前向纠错(FEC)和光通信中通常使用的复杂数字信号处理(DSP)不兼容
  • 然而,10m 光链路在信号质量方面几乎是理想的,可能实现低于 1e-7 的误码率(BER),并具有较大的信噪比(SNR)裕度
  • 这一性能远低于 PCIe FLIT FEC 要求的 1e-6 BER,消除了对强 FEC 和复杂 DSP 的需求
    ; S1 h7 ]3 i; \* [8 B0 C5 n. u) s. Q

    8 A; n* ]) ^" q/ x, m8 a当前 ECN 基准包括链路两端的重定时器,这消耗了整个延迟预算。然而,半重定时或非重定时配置可以轻松支持 10m 光链路,并具有更低的延迟。2 D4 Q( n2 L% N

    6 a1 d0 k6 W0 Y  p6 b瞬态延迟:光线路交换(OCS)! ^2 d; C9 k2 L) W8 v
    光线路交换(OCS)已在一些大型数据中心(如谷歌)中部署用于网络重构。人们越来越有兴趣使用 OCS 进行流量交换,但这带来了重大挑战:
    1 k1 {% J& `7 y) u  B
  • OCS 的控制问题极其复杂,已经研究了几十年
  • 实现高速交换特别具有挑战性
  • 虽然许多关注点在于开发快速光交换器(有些报告微秒级交换速度),但高速光学器件通常需要数百毫秒才能在交换后稳定
  • 要实现纳秒或微秒级的交换速度,需要全新类型的光学 PHY(物理层接口)
    8 {& i0 T9 S8 T$ {
    ; @# {5 C& N1 ~8 Z. ]) A/ {
    结论! k! _/ m% q0 m. g. q* O
    随着 AI 集群不断推动计算能力和数据处理的界限,对光互连的要求变得越来越严格。实现可靠性、延迟、成本和性能的理想平衡需要创新方法和新技术。
    / {6 L9 D2 |. m& d) M$ d- a+ A% K9 B7 _
    量子点激光器和蓝色 LED 阵列在显著提高光连接可靠性方面显示出希望,有可能使其与铜互连的稳健性相当。同时,需要仔细的设计考虑和光交换的新方法来满足 AI 应用的超低延迟要求。
    . i) m5 f/ S5 G" Z& p4 T, f; f$ i8 [
    参考文献
    ( @& b* \. c8 M$ t; W  M[1] C. Cole, "Reliability & Latency in Optical Computer I/O: Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.
    " B7 i$ L: \4 d, q* n. g5 P. s; q6 o# l8 K
    - END -, ^; ^4 F9 k0 ^0 x9 e

    + ?* S- l. D  d. P' J软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    ; F. E2 ^4 \' l: a% P% [" a; p/ ^点击左下角"阅读原文"马上申请
    ! y3 `3 B7 Z1 x6 {: y
    : s: [# Y9 Z/ u! p欢迎转载! E9 d# u* K* i5 u( X" R

    : G, ?. f+ h+ r0 i" W转载请注明出处,请勿修改内容和删除作者信息!
    1 b8 ]$ V  h1 }8 b: X8 r1 c! _" L+ Q9 I

    4 L$ T, E6 u; B

    6 K8 n& T5 v; {$ F7 Q' `

    hk0f4llmqpt64082445021.gif

    hk0f4llmqpt64082445021.gif

    / O, C" B9 a' N: y* |6 _  i8 y& Y4 ^( V9 O
    关注我们( P: Z0 h$ B+ D; k4 w& i- Y4 ]

    - }) _- }! ~/ q/ ?% K
    2 Q) m! \0 F4 i- R; v8 y0 p( C

    mcz1n1lot5364082445121.png

    mcz1n1lot5364082445121.png

    # ^  j; |' l# K) l: r& S) {
    $ x) ?) _8 T# d/ Q# X

    pqlqqazqnd364082445221.png

    pqlqqazqnd364082445221.png
    * L4 _6 ^/ R4 ^! A4 b: O

    & ~& ]1 V9 C- u2 {6 x* m

    0xpnyyjokxh64082445321.png

    0xpnyyjokxh64082445321.png
    ) q8 V3 J6 c" ~9 R' U' o
                          2 E4 |% k0 N+ u+ N4 f, L% ^* O
    ! y% j; [2 f2 U; z# `
    6 a( y- s3 x$ L! J+ l9 g

    1 n* W5 P0 O9 A0 j& t关于我们:5 b4 \6 O3 w4 U6 ^" u: ^2 h2 X
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。+ @$ i( Q4 c3 u" ^; g, c
    ( D/ N: d7 f! a- M
    http://www.latitudeda.com/, p3 @& {+ }1 J
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表