电子产业一站式赋能平台

PCB联盟网

搜索
查看: 260|回复: 0
收起左侧

光计算 I/O 中的可靠性和延迟

[复制链接]

978

主题

978

帖子

9715

积分

高级会员

Rank: 5Rank: 5

积分
9715
发表于 2024-10-12 08:00:00 | 显示全部楼层 |阅读模式
引言
, P; w) e9 z, d: p在人工智能(AI)和高性能计算快速发展的世界中,数据传输和处理的需求不断挑战传统互连技术的极限。本文探讨光计算 I/O 中可靠性和延迟的关键方面,特别关注 AI 集群光连接的特殊要求[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!2 Y" G) q- l7 F/ x9 [- l+ F

2 K* Q! ~1 C; L' {$ [人工智能集群光连接简介
& ^) E" ^. J" E9 Q2 W/ cAI 集群光连接是光计算 I/O 的一种专门变体,由于其具有挑战性,已经研究了几十年。这些连接可以根据其范围和技术broadly分为四类:
  • 集群:30-300m 范围,使用单模光纤(SMF)
  • 机架间:2-20m 范围,使用多模光纤(MMF)和单模光纤
  • 机架内(托盘):1-2m 范围,使用铜缆
  • 芯片到芯片(C2C):2-5mm 范围,使用铜迹线
    , A) ^7 C7 m# G[/ol]
    - j- w5 t+ v( D( u; p$ g2 v3 C; F; o" F# _# x2 C0 T, m6 u

    cvwxo0hlteb64082444720.png

    cvwxo0hlteb64082444720.png
    ! U* b( V0 \! i9 B' ~& i
    图 1:AI 集群连接类型、范围和使用的技术。' c. w, Z( S9 ]0 H' O
    1 R- q! ~  R0 y6 J
    理想的 AI 光连接应结合铜和光技术的最佳属性:
    # L5 \5 o1 S9 \4 k# C
  • 成本、功耗和可靠性与铜 I/O 相当(比当前光学技术低几个数量级)
  • 范围和密度类似于波分复用(WDM)或空分复用(SDM)
  • 延迟主要由传播延迟决定/ G) m  j. _  j2 [0 k" m; B
    & U- o! w. I' n
    # h4 s; n: m9 u: U: S) O
    光连接中的可靠性
    ! K2 _# o8 L; [9 A可靠性是 AI 集群光连接中的重要因素。当前的网络可靠性范式依赖于可靠性适中的可插拔模块,故障率通常在 30 到 100 FIT(每十亿小时故障次数)之间。然而,AI 连接要求更为严格,目标是达到与铜缆相当的可靠性,即低于 1 FIT。) h" Q& T% A2 {& ~( ^
    3 J. u5 L4 c/ ]5 b. I" P, q
    为了实现如此高的可靠性,正在探索两种主要方法:
  • 开发本质上具有低 FIT 率的全新光器件
  • 实施新的系统级冗余技术
    , a% {, T1 w, {- I: j$ \[/ol]
    4 D" k6 B+ J$ R( N9 y! s: {7 E让我们研究两个有望提高可靠性的技术实例:: ^! B3 A7 `" q, E4 G- t% S
    1. 量子点(QD)激光器/ q' d  p7 f, l: j' @3 j
    量子点激光器在可靠性方面比传统量子阱(QW)激光器有显著进步。
    + x9 d4 g4 K, Y4 @& l" u

    ipiyv5w1xlv64082444821.png

    ipiyv5w1xlv64082444821.png

    ' Y7 Z# u* P! E1 D( i, c图 2:量子阱(QW)和量子点(QD)结构比较。+ ]  C8 \- Y: b4 \0 h$ h9 R

    . l" ^# s- `8 w- i( _* k- NQD 激光器的可靠性比 QW 激光器高出 100 多倍。这种提高的可靠性源于几个因素:
    & Q7 ~  P3 S0 G/ {
  • QD 相互独立,将少数载流子与远处的缺陷隔离
  • QD 通过硬化晶格抑制缺陷的生长
  • QD 激光器的随机故障率比 QW 激光器低几个数量级
    : _: p+ j; c# d3 k# K

    3 @6 b4 ^3 k5 I6 yQD 激光器的一个主要优势是对暗线缺陷(DLD)的免疫力,这是 QW 激光器的常见故障模式。即使在活性区附近存在多个缺陷,QD 激光器也不会出现 DLD 生长,显著提高了寿命和可靠性。  ^6 V  f& M% H' [7 o
    + j  r. {0 i# Y1 M/ b
    2. 蓝色 LED 阵列
    / E/ A6 v7 l9 H# d' P; E9 e+ W另一种有望提高光连接可靠性的技术是使用蓝色 LED 阵列。这些阵列提供了几个优势:
    3 [+ e2 N. g! n  I9 J
  • LED 退化随时间呈对数模式
  • 基于 GaN 的 LED 具有较小的激活能,使其可靠性对温度波动不太敏感
  • 虽然可能会有初始功率下降,但平均寿命(功率降低到 50% 的时间)非常长
    1 K8 J, S0 F3 R; s$ ~; d9 A' [' F1 W
    ) W+ Q! F- ?- Q7 J) }; K  T# i! ?7 `

    5 e. M. S* l8 y" P6 W; E

    k3unpkmcgph64082444921.png

    k3unpkmcgph64082444921.png

    6 F' T6 l. l+ p, Y7 [: Z图3:蓝色 LED 随时间的可靠性特性。
    2 m3 D. T: i$ {5 ]; ]0 B% I4 a. D9 `4 r0 ]1 L  N/ L* N( _
    光连接中的延迟4 N( U2 p- h( D7 u$ i  a: F5 f5 W/ X
    延迟是 AI 集群光连接中另一个关键因素,特别是对于需要实时处理或节点间高速数据交换的应用。我们可以将延迟考虑分为两个主要类型:
  • 稳态延迟
  • 瞬态延迟
    : m4 K$ `0 Q5 H" _[/ol]
    / T9 x, h6 ?5 _2 f: M) ]稳态延迟:光学 PCIe7 [' _: }% J& H3 k7 }1 l8 s# z
    PCI Special Interest Group(PCI-SIG)目前正在制定工程变更通知(ECN),以支持 PCIe 6 的光缆。虽然没有规范的距离要求,但合理的目标约为 10 米。这带来了一些有趣的挑战和机遇:2 E( f7 R7 o$ b' T/ L' D" F
  • 10m 链路的单程延迟为 50ns,往返延迟为 100ns
  • 这些延迟要求与传统以太网前向纠错(FEC)和光通信中通常使用的复杂数字信号处理(DSP)不兼容
  • 然而,10m 光链路在信号质量方面几乎是理想的,可能实现低于 1e-7 的误码率(BER),并具有较大的信噪比(SNR)裕度
  • 这一性能远低于 PCIe FLIT FEC 要求的 1e-6 BER,消除了对强 FEC 和复杂 DSP 的需求, G: @; y; S5 y) j; a, d6 j# T

    ; P& A/ d0 g  x当前 ECN 基准包括链路两端的重定时器,这消耗了整个延迟预算。然而,半重定时或非重定时配置可以轻松支持 10m 光链路,并具有更低的延迟。
    1 T, K% x4 A$ C' y9 f1 q2 X2 B
    瞬态延迟:光线路交换(OCS)
    1 `$ s( ~* R0 P" |+ x& t4 O: R光线路交换(OCS)已在一些大型数据中心(如谷歌)中部署用于网络重构。人们越来越有兴趣使用 OCS 进行流量交换,但这带来了重大挑战:
    & o, ]" L9 a! K1 t
  • OCS 的控制问题极其复杂,已经研究了几十年
  • 实现高速交换特别具有挑战性
  • 虽然许多关注点在于开发快速光交换器(有些报告微秒级交换速度),但高速光学器件通常需要数百毫秒才能在交换后稳定
  • 要实现纳秒或微秒级的交换速度,需要全新类型的光学 PHY(物理层接口)+ _' Z) L7 W' C' X. `9 P
    ! ~; `, P+ B' E1 S9 a7 i
    结论$ l; _$ [5 J5 X
    随着 AI 集群不断推动计算能力和数据处理的界限,对光互连的要求变得越来越严格。实现可靠性、延迟、成本和性能的理想平衡需要创新方法和新技术。9 B+ D6 }4 M; w# E

    % X+ D2 y- t" {& d& `量子点激光器和蓝色 LED 阵列在显著提高光连接可靠性方面显示出希望,有可能使其与铜互连的稳健性相当。同时,需要仔细的设计考虑和光交换的新方法来满足 AI 应用的超低延迟要求。% }3 b8 I# s1 @) y! N* U  d

    # C; B+ V% q6 |1 o! D/ Q/ A参考文献) i1 |  r; J( c" c' C5 {
    [1] C. Cole, "Reliability & Latency in Optical Computer I/O: Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.) I$ L! O/ y; M  `& ^3 Z7 x
    % C! G; f2 x1 Q+ c% Z: Z9 r
    - END -
    3 ]& U0 A, Z' ^" O4 h! Q. s( s, Q' [! p! z, e6 W5 u
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。$ z+ p; {' X; e
    点击左下角"阅读原文"马上申请% B* A6 Y' i0 K% @
    " u4 Z6 o4 A' _6 ?0 D. L5 h- P
    欢迎转载: ?+ e4 W3 V$ C- k5 O. G

    5 A* @  ^  S. E- ]$ e9 V转载请注明出处,请勿修改内容和删除作者信息!, X' j, J) Z! ^: H1 l! G3 k- T# n
    ; O* V+ t  W' K
    ! N, b7 u8 m0 X6 ^( n# D0 w
    0 @4 C$ a/ \. Q# m* R

    hk0f4llmqpt64082445021.gif

    hk0f4llmqpt64082445021.gif
    3 @7 }3 }3 D* l) E+ G0 L/ ^
    / a4 H: W9 A$ Q" i  W1 M* S
    关注我们
    4 K2 V' C" Y" H" g' y  k
    , H9 N) f, ]1 H  \7 p+ D; g

      i+ Z" Q8 m; f$ R9 M# i4 o

    mcz1n1lot5364082445121.png

    mcz1n1lot5364082445121.png

    . O. \+ s5 L0 {4 `# @  y

    ( d  _) p4 U, |" c, G" L; E# ?

    pqlqqazqnd364082445221.png

    pqlqqazqnd364082445221.png
    & u% r. V6 z2 u; i# @% Y
    + o% [9 N  a2 P- Z5 p; ?

    0xpnyyjokxh64082445321.png

    0xpnyyjokxh64082445321.png
    " Z" F2 N8 j& |2 ~. {+ |. L" w2 m: a
                          ! |: s3 g0 E# g! z3 w/ _5 q" X

    ' G; M; H- _4 `9 ]4 j  I& f; ]. [
    1 V5 b1 |: @9 w' X
    6 e7 N% l- ^1 @% ?7 U+ H5 D2 k9 g' c/ g
    关于我们:
    9 ?* L; z- V; \1 V0 b9 V; f深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    # U: ?# t  p- R+ |- j. w1 l8 _: K) m  O" n7 H
    http://www.latitudeda.com/
    9 o- ?& f" U1 T6 }(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表