电子产业一站式赋能平台

PCB联盟网

搜索
查看: 262|回复: 0
收起左侧

光计算 I/O 中的可靠性和延迟

[复制链接]

983

主题

983

帖子

9792

积分

高级会员

Rank: 5Rank: 5

积分
9792
发表于 2024-10-12 08:00:00 | 显示全部楼层 |阅读模式
引言
, j# v. L' C( y3 f4 r! C在人工智能(AI)和高性能计算快速发展的世界中,数据传输和处理的需求不断挑战传统互连技术的极限。本文探讨光计算 I/O 中可靠性和延迟的关键方面,特别关注 AI 集群光连接的特殊要求[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!
$ i/ p5 t" V) b1 y' f4 {, J0 _
. L; B  R$ E" y% {人工智能集群光连接简介8 @  t" [3 I0 [+ }
AI 集群光连接是光计算 I/O 的一种专门变体,由于其具有挑战性,已经研究了几十年。这些连接可以根据其范围和技术broadly分为四类:
  • 集群:30-300m 范围,使用单模光纤(SMF)
  • 机架间:2-20m 范围,使用多模光纤(MMF)和单模光纤
  • 机架内(托盘):1-2m 范围,使用铜缆
  • 芯片到芯片(C2C):2-5mm 范围,使用铜迹线
    ! ^3 H2 `# r& L0 S- D4 Q[/ol]9 c# `! m; N9 k% s7 {. G# O
    ) G' P* ^. P. }* Y+ n, s% O+ ]4 Z

    cvwxo0hlteb64082444720.png

    cvwxo0hlteb64082444720.png

    % X7 R, Z9 {& U6 H8 u图 1:AI 集群连接类型、范围和使用的技术。
    6 k5 O( u8 R7 X( W' h* j! m, s8 m2 W6 q% C
    理想的 AI 光连接应结合铜和光技术的最佳属性:
    - p' x& A6 r$ ]
  • 成本、功耗和可靠性与铜 I/O 相当(比当前光学技术低几个数量级)
  • 范围和密度类似于波分复用(WDM)或空分复用(SDM)
  • 延迟主要由传播延迟决定# F4 O9 o5 O% z  g
    * U1 T9 y( Y; t% E6 d) d4 S, `
    # s# Q  r8 x; C* h9 g1 L
    光连接中的可靠性
    8 H/ ]+ @2 N" Z! b; r可靠性是 AI 集群光连接中的重要因素。当前的网络可靠性范式依赖于可靠性适中的可插拔模块,故障率通常在 30 到 100 FIT(每十亿小时故障次数)之间。然而,AI 连接要求更为严格,目标是达到与铜缆相当的可靠性,即低于 1 FIT。
    ' h7 ~) |0 d- S7 f1 t7 x) D
      J6 Y. n0 A& L为了实现如此高的可靠性,正在探索两种主要方法:
  • 开发本质上具有低 FIT 率的全新光器件
  • 实施新的系统级冗余技术
    ) N" g5 J2 W2 l/ T: e; R[/ol]8 u' Y8 |5 ?( K4 \0 |- U: j1 Z% U
    让我们研究两个有望提高可靠性的技术实例:
    , `. G: l5 ?' J0 X# Z$ `1. 量子点(QD)激光器5 E* u( f5 H% a6 r5 Z
    量子点激光器在可靠性方面比传统量子阱(QW)激光器有显著进步。" w8 V9 N2 @$ x; x0 V8 t$ L( r

    ipiyv5w1xlv64082444821.png

    ipiyv5w1xlv64082444821.png
    + h8 @/ s& s' M" f' y
    图 2:量子阱(QW)和量子点(QD)结构比较。
    * w7 m3 J" L/ r) U  J6 \) I8 B( e+ ~: s7 Z( z
    QD 激光器的可靠性比 QW 激光器高出 100 多倍。这种提高的可靠性源于几个因素:
    , B$ [- [: H# I4 Z% M7 j
  • QD 相互独立,将少数载流子与远处的缺陷隔离
  • QD 通过硬化晶格抑制缺陷的生长
  • QD 激光器的随机故障率比 QW 激光器低几个数量级
    / V5 G0 K& W, k6 Y
    ; J  y+ C3 T5 }
    QD 激光器的一个主要优势是对暗线缺陷(DLD)的免疫力,这是 QW 激光器的常见故障模式。即使在活性区附近存在多个缺陷,QD 激光器也不会出现 DLD 生长,显著提高了寿命和可靠性。/ K# p# }3 W3 g3 K+ Z

    / p  B- q% N8 K+ ^* h. l' Y2. 蓝色 LED 阵列; \0 {* ?; z3 R! \: F
    另一种有望提高光连接可靠性的技术是使用蓝色 LED 阵列。这些阵列提供了几个优势:- P: ]+ E' \7 B3 P, Q
  • LED 退化随时间呈对数模式
  • 基于 GaN 的 LED 具有较小的激活能,使其可靠性对温度波动不太敏感
  • 虽然可能会有初始功率下降,但平均寿命(功率降低到 50% 的时间)非常长- n2 g7 P) `3 J) m2 j  F( x5 h
    * ^1 X4 A' `6 j2 S. M1 m. P0 F

    4 A5 p: n5 t+ v

    k3unpkmcgph64082444921.png

    k3unpkmcgph64082444921.png

    # p2 b% O5 _9 E* @图3:蓝色 LED 随时间的可靠性特性。1 A5 y: \1 E. _( ~  q
    0 n9 o2 @& x/ o; Y# l. [
    光连接中的延迟
    " w  {/ F3 {+ {) T+ l! n! x' p延迟是 AI 集群光连接中另一个关键因素,特别是对于需要实时处理或节点间高速数据交换的应用。我们可以将延迟考虑分为两个主要类型:
  • 稳态延迟
  • 瞬态延迟
    + l" c% H& R) }8 g[/ol]
    5 g! s4 n( m; M$ |: A稳态延迟:光学 PCIe
    4 C. \  Q0 c9 ~PCI Special Interest Group(PCI-SIG)目前正在制定工程变更通知(ECN),以支持 PCIe 6 的光缆。虽然没有规范的距离要求,但合理的目标约为 10 米。这带来了一些有趣的挑战和机遇:
    ! d5 _6 T9 e) \1 D" h: [
  • 10m 链路的单程延迟为 50ns,往返延迟为 100ns
  • 这些延迟要求与传统以太网前向纠错(FEC)和光通信中通常使用的复杂数字信号处理(DSP)不兼容
  • 然而,10m 光链路在信号质量方面几乎是理想的,可能实现低于 1e-7 的误码率(BER),并具有较大的信噪比(SNR)裕度
  • 这一性能远低于 PCIe FLIT FEC 要求的 1e-6 BER,消除了对强 FEC 和复杂 DSP 的需求
    : l0 w! a! W+ [" j5 s6 p" h
    / M% l" K3 Y5 J& L& y2 Z
    当前 ECN 基准包括链路两端的重定时器,这消耗了整个延迟预算。然而,半重定时或非重定时配置可以轻松支持 10m 光链路,并具有更低的延迟。
    # O6 i& d. a: d* V* {7 L$ \8 }9 E) l$ }
    瞬态延迟:光线路交换(OCS)- ]4 S: O! p- Q, A! G& P7 o
    光线路交换(OCS)已在一些大型数据中心(如谷歌)中部署用于网络重构。人们越来越有兴趣使用 OCS 进行流量交换,但这带来了重大挑战:
    5 k7 g0 n9 o3 y+ ~6 i2 e$ N
  • OCS 的控制问题极其复杂,已经研究了几十年
  • 实现高速交换特别具有挑战性
  • 虽然许多关注点在于开发快速光交换器(有些报告微秒级交换速度),但高速光学器件通常需要数百毫秒才能在交换后稳定
  • 要实现纳秒或微秒级的交换速度,需要全新类型的光学 PHY(物理层接口)
    & u( j5 _% B2 Y7 k7 i+ _. X

    : m6 G1 ~, q8 E3 p9 k1 H" g4 }结论% v+ O+ x- }2 F5 P* a) D
    随着 AI 集群不断推动计算能力和数据处理的界限,对光互连的要求变得越来越严格。实现可靠性、延迟、成本和性能的理想平衡需要创新方法和新技术。
    ! Y3 c) d& {$ ^- I0 ?
    * v9 Y1 a  z, F; _* K- Y量子点激光器和蓝色 LED 阵列在显著提高光连接可靠性方面显示出希望,有可能使其与铜互连的稳健性相当。同时,需要仔细的设计考虑和光交换的新方法来满足 AI 应用的超低延迟要求。8 v3 D# R! N* E- L1 y

    , m" k: m8 l8 y参考文献4 Q- A4 E5 P6 M) ^
    [1] C. Cole, "Reliability & Latency in Optical Computer I/O: Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.
    3 e+ Y4 a) {: x+ J+ G2 |
    - o3 z5 W. j: B& ]$ t- END -) S: k: @1 v; ]
    9 ]- `& M3 z& t2 G
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    , y# i) b$ o/ u% L2 b* \! q( |! {* V  b点击左下角"阅读原文"马上申请. h. p' c/ x+ S3 `
    " P( Z! ?' \" N$ ^+ q3 ~
    欢迎转载
    & _! X0 [0 T% P" J# Q& T( p# T; f+ l" n6 \4 s
    转载请注明出处,请勿修改内容和删除作者信息!7 H2 ~% E/ }! A3 s

    & J' _6 m  c; u  S2 a; U7 O- F) H0 @/ }# t
    ' F: X, ^5 L1 e* ^4 A7 h' {- M

    hk0f4llmqpt64082445021.gif

    hk0f4llmqpt64082445021.gif

    * F5 N. w+ r5 n% b! f) P! D  K; u: f* J' b/ n( o: q: x
    关注我们0 p+ i, ~, Z) V4 v) n4 f

    3 U7 L. B" C: J9 p# J  T. S

    4 ~" ?9 H( ^1 c* z1 d

    mcz1n1lot5364082445121.png

    mcz1n1lot5364082445121.png
    3 }3 D6 |: i* I) {/ B
    + o- r' r, h5 B- H' x9 @7 q

    pqlqqazqnd364082445221.png

    pqlqqazqnd364082445221.png

    ' X9 s; a3 i  u& X6 W* _

    % {7 K# ?, d1 I' O. ?" c

    0xpnyyjokxh64082445321.png

    0xpnyyjokxh64082445321.png
    * v" Q0 `* }" z. S, `( p; \% `: L
                         
    " A, h5 d4 C2 e6 |( {' o; H4 g% j: D% @% O, }. _- w+ E  f5 d
    6 e. N5 z# ^; l8 j2 B' N9 }% K
    6 ^; ~6 f' y, y9 O6 P! z
    关于我们:
    ! ^8 ]7 }. s$ {深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    & r+ o! o2 B+ p7 e6 ?9 I6 A* u9 V. D4 N- t
    / R/ E" j1 d+ rhttp://www.latitudeda.com/
    6 ~. @) Q' G4 Z; m: L( C(点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表