电子产业一站式赋能平台

PCB联盟网

搜索
查看: 255|回复: 0
收起左侧

光计算 I/O 中的可靠性和延迟

[复制链接]

970

主题

970

帖子

9635

积分

高级会员

Rank: 5Rank: 5

积分
9635
发表于 2024-10-12 08:00:00 | 显示全部楼层 |阅读模式
引言
& z% t. M' E3 H! M( g) o在人工智能(AI)和高性能计算快速发展的世界中,数据传输和处理的需求不断挑战传统互连技术的极限。本文探讨光计算 I/O 中可靠性和延迟的关键方面,特别关注 AI 集群光连接的特殊要求[1]。引用文献来自LightCounting在7月30日举办的Special Requirements for Optical Connectivity in AI Clusters Webinar,特此感谢!: {  P& p& Q! |8 t
6 r- B! n7 @4 l0 x6 a
人工智能集群光连接简介; v! h0 u+ i" A' J! i4 S
AI 集群光连接是光计算 I/O 的一种专门变体,由于其具有挑战性,已经研究了几十年。这些连接可以根据其范围和技术broadly分为四类:
  • 集群:30-300m 范围,使用单模光纤(SMF)
  • 机架间:2-20m 范围,使用多模光纤(MMF)和单模光纤
  • 机架内(托盘):1-2m 范围,使用铜缆
  • 芯片到芯片(C2C):2-5mm 范围,使用铜迹线
    - X0 o; K4 V: {[/ol]1 F" {, p. o; d
      I) j8 `4 T7 q; q8 ]

    cvwxo0hlteb64082444720.png

    cvwxo0hlteb64082444720.png
    3 ^, d4 L- l6 m6 t3 f2 E
    图 1:AI 集群连接类型、范围和使用的技术。7 ]: I+ ], E/ Y- L

    6 V; \1 h% E" s5 `* N5 S, Q1 I. A理想的 AI 光连接应结合铜和光技术的最佳属性:
    7 P0 d' _6 Y. w9 R/ v
  • 成本、功耗和可靠性与铜 I/O 相当(比当前光学技术低几个数量级)
  • 范围和密度类似于波分复用(WDM)或空分复用(SDM)
  • 延迟主要由传播延迟决定
    , q) V0 s, \7 [6 Q+ c/ A1 {/ B$ S% R

    , H7 V' h' Q% r; G, J
    4 D2 e( i% S0 u# m; f, K) J$ l
    光连接中的可靠性
    2 A- D* Y) H7 m5 Y可靠性是 AI 集群光连接中的重要因素。当前的网络可靠性范式依赖于可靠性适中的可插拔模块,故障率通常在 30 到 100 FIT(每十亿小时故障次数)之间。然而,AI 连接要求更为严格,目标是达到与铜缆相当的可靠性,即低于 1 FIT。
    # R+ @$ i) m5 X1 ~; K$ R. m6 M
    : B! w" R/ F- n5 r: W8 A4 o5 \为了实现如此高的可靠性,正在探索两种主要方法:
  • 开发本质上具有低 FIT 率的全新光器件
  • 实施新的系统级冗余技术# o# a& ~% |0 X' |- @5 G) c. x- T
    [/ol]6 ~$ P2 s2 w( K8 R& ^$ \
    让我们研究两个有望提高可靠性的技术实例:
    ! V. P7 l9 N, v' [" K' Y1. 量子点(QD)激光器* u2 o; U8 s9 n+ Q0 v( u7 T! Y
    量子点激光器在可靠性方面比传统量子阱(QW)激光器有显著进步。3 n8 ^/ j+ U8 K0 D. f- w" @* ]& F

    ipiyv5w1xlv64082444821.png

    ipiyv5w1xlv64082444821.png

    7 W8 Y2 M) B: Z8 \2 `) E' V图 2:量子阱(QW)和量子点(QD)结构比较。$ r( u- _* r) U/ C! Q2 L2 B
    ; l7 _1 t4 A8 |% p4 ^
    QD 激光器的可靠性比 QW 激光器高出 100 多倍。这种提高的可靠性源于几个因素:
    ) q8 c1 K5 r1 Y; A
  • QD 相互独立,将少数载流子与远处的缺陷隔离
  • QD 通过硬化晶格抑制缺陷的生长
  • QD 激光器的随机故障率比 QW 激光器低几个数量级
    1 O5 c+ j% S6 c* p; H$ ?" s
    . \0 H. |5 z* C& ]7 Q# ]
    QD 激光器的一个主要优势是对暗线缺陷(DLD)的免疫力,这是 QW 激光器的常见故障模式。即使在活性区附近存在多个缺陷,QD 激光器也不会出现 DLD 生长,显著提高了寿命和可靠性。
    6 B1 C; ?) q0 \% j9 \" ^. g% z1 B: @
    % a2 N, x+ r5 R8 K' H2. 蓝色 LED 阵列( M& ?* h* {, V( H  C9 e$ Z
    另一种有望提高光连接可靠性的技术是使用蓝色 LED 阵列。这些阵列提供了几个优势:
    , S1 m% Q! k4 o- C5 t1 n
  • LED 退化随时间呈对数模式
  • 基于 GaN 的 LED 具有较小的激活能,使其可靠性对温度波动不太敏感
  • 虽然可能会有初始功率下降,但平均寿命(功率降低到 50% 的时间)非常长
    # Q6 |, {/ r2 n7 ^5 d

    7 z% Y; b* r1 _6 m
    7 G4 X8 D. l" W/ X3 ^* v' M( L

    k3unpkmcgph64082444921.png

    k3unpkmcgph64082444921.png
    3 X+ v0 d' e) U7 z/ o4 {
    图3:蓝色 LED 随时间的可靠性特性。- m( j. E3 e2 g
    : Q3 A% {) h" t/ M' E* }. [
    光连接中的延迟
    & z, h0 P+ I( @' F4 x延迟是 AI 集群光连接中另一个关键因素,特别是对于需要实时处理或节点间高速数据交换的应用。我们可以将延迟考虑分为两个主要类型:
  • 稳态延迟
  • 瞬态延迟# E/ P" U# g5 \8 z) ?& P
    [/ol]
    ; n9 E$ L* S+ z% l稳态延迟:光学 PCIe, U( w8 ~9 o* I, Z* E. I
    PCI Special Interest Group(PCI-SIG)目前正在制定工程变更通知(ECN),以支持 PCIe 6 的光缆。虽然没有规范的距离要求,但合理的目标约为 10 米。这带来了一些有趣的挑战和机遇:
    * M) \( _& i# P. f- s# T
  • 10m 链路的单程延迟为 50ns,往返延迟为 100ns
  • 这些延迟要求与传统以太网前向纠错(FEC)和光通信中通常使用的复杂数字信号处理(DSP)不兼容
  • 然而,10m 光链路在信号质量方面几乎是理想的,可能实现低于 1e-7 的误码率(BER),并具有较大的信噪比(SNR)裕度
  • 这一性能远低于 PCIe FLIT FEC 要求的 1e-6 BER,消除了对强 FEC 和复杂 DSP 的需求
    1 s4 G* K5 X: A
    + _( x3 @+ Y/ [0 Y
    当前 ECN 基准包括链路两端的重定时器,这消耗了整个延迟预算。然而,半重定时或非重定时配置可以轻松支持 10m 光链路,并具有更低的延迟。. e% S+ I+ b, A3 }
    ' m& O( [( g" h! W- {7 ?7 A
    瞬态延迟:光线路交换(OCS). o' m; g9 c5 I" h
    光线路交换(OCS)已在一些大型数据中心(如谷歌)中部署用于网络重构。人们越来越有兴趣使用 OCS 进行流量交换,但这带来了重大挑战:
    6 h  t4 K5 _& W8 S
  • OCS 的控制问题极其复杂,已经研究了几十年
  • 实现高速交换特别具有挑战性
  • 虽然许多关注点在于开发快速光交换器(有些报告微秒级交换速度),但高速光学器件通常需要数百毫秒才能在交换后稳定
  • 要实现纳秒或微秒级的交换速度,需要全新类型的光学 PHY(物理层接口)
    7 [. B* d; S# I. U& h' H

    2 }0 y  c4 s7 v3 q  j- J结论
    7 [3 o- I7 \% a- X2 T2 i5 S; N随着 AI 集群不断推动计算能力和数据处理的界限,对光互连的要求变得越来越严格。实现可靠性、延迟、成本和性能的理想平衡需要创新方法和新技术。! W+ U" [2 ~' ^! @' s' F1 V, {

    5 Q; J. A% g1 W6 @. B5 Y量子点激光器和蓝色 LED 阵列在显著提高光连接可靠性方面显示出希望,有可能使其与铜互连的稳健性相当。同时,需要仔细的设计考虑和光交换的新方法来满足 AI 应用的超低延迟要求。
    # I% I2 j$ U; \" ^; W2 v6 }
    ( S3 C/ U3 l0 g( w- p6 p参考文献3 _- Z7 `- A7 v! r2 a2 {( E
    [1] C. Cole, "Reliability & Latency in Optical Computer I/O: Special Requirements for Optical Connectivity in AI Clusters," LightCounting Webinar, Jul. 30, 2024.
    # ^% F! I3 E$ Q) p- P9 W, ^' [
    0 n. O" K" a% @# r( v% D- END -
    " p# g7 F3 o  Y, D/ e6 Y9 r, ^* [4 Z; i/ V/ ^
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    ) [+ b  b1 P& x% R点击左下角"阅读原文"马上申请
    $ X0 |) l) X0 J9 E$ p/ j- E# j. M! \1 D
    欢迎转载& s6 x( r0 b2 _7 J1 Q$ b' B
    ! q2 X' m5 N- z! u4 j. y8 a
    转载请注明出处,请勿修改内容和删除作者信息!
    ! Z% s. Y4 V0 y7 k1 L% f
    ( [! B$ f* _) B6 E, N' q3 [9 d7 [7 |% f5 P  ~$ c* Z, M7 y: u; o. d
    ; Y3 X6 c+ J' P

    hk0f4llmqpt64082445021.gif

    hk0f4llmqpt64082445021.gif

    ; r! R1 }5 s8 R9 d) L7 u" t( s! s; ^5 {
    关注我们
    ! h& m. A4 X4 }! d9 o- g) |- y7 `
    ( U. s% ~  J8 r' ]6 k! R  U
    . P% S0 l2 `+ {' N2 l" c! w

    mcz1n1lot5364082445121.png

    mcz1n1lot5364082445121.png
    $ p& I( _. E4 J  u+ f' w
    7 v+ L3 [. Y$ k2 h3 X0 b

    pqlqqazqnd364082445221.png

    pqlqqazqnd364082445221.png
    1 V7 S+ ]: L0 p+ B: n: h0 n

    1 M# D9 T8 o( t3 }! v: i. P

    0xpnyyjokxh64082445321.png

    0xpnyyjokxh64082445321.png
    2 x  \+ R, H. X
                          + D3 E- Y$ i& K0 c- K9 B1 H1 H2 E

    . Q+ E3 J: q- p+ C4 C
    : w' v9 |. ]1 G# m; |

    9 j! n- v- g) y' B7 f" k5 Z关于我们:; d( y; B0 b0 w$ k5 B5 z$ {
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
    * p6 @9 c* f2 ~& F1 y- v
    / m* a4 {, m/ i+ T  G9 l* hhttp://www.latitudeda.com// w5 z5 M8 W+ q  Z" D. @
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表