电子产业一站式赋能平台

PCB联盟网

搜索
查看: 71|回复: 0
收起左侧

光学片上网络的激光调制方案

[复制链接]

670

主题

670

帖子

5775

积分

四级会员

Rank: 4

积分
5775
发表于 2024-9-18 08:00:00 | 显示全部楼层 |阅读模式
引言
3 H  p2 k4 O) k. H: O8 u随着硅晶体管缩放接近极限,研究人员正在探索新技术以继续提高处理器性能和效率。有前途的方向是使用片上光学网络(也称为光学片上网络或光学NoC)来替代传统的电气互连。与电气网络相比,光学NoC在带宽、延迟和功耗方面具有潜在优势。然而,有效管理光学NoC的功耗带来了新的挑战[1]。
: b  G: S+ \* q# P  X/ e3 l- q, q1 z, K' f5 Z5 h" |" D* v9 U
本文将探讨用于最小化光学NoC静态功耗的激光调制方案。我们将介绍基于网络活动动态调制激光功率的关键概念、架构和预测技术。
& ^* ^4 T9 ]6 k3 _3 \3 L$ J& J% w& G8 W8 t
) h; s; b( S/ D/ Z, x6 J
背景* ~6 l$ e1 D" O3 e" B2 x4 a
光学NoC使用光来传输芯片上组件之间的数据。基本构建模块包括:
" n% G& o' `/ r2 ?7 a
  • 激光器:光源,可以是片外或片上
  • 调制器:将电信号转换为光信号
  • 波导:在芯片上引导光
  • 光电探测器:将光信号转换回电信号
    : e; V/ d: a( N' w

    6 B- C  z" @$ ^  c) L9 v光传输本身非常高效,但产生光的激光器消耗大量功率。一个关键挑战是光子不能像电荷那样容易存储。这意味着激光器通常需要持续供电,即使不主动传输数据时也是如此。这种静态功耗可能占光学NoC总功耗的80-90%。
    : p0 z/ e% g, C# ^
    1 p& c. m1 R% E1 A# ]* n1 D: g; l8 O6 G为解决这个问题,研究人员开发了激光调制方案,旨在根据预测的网络活动动态调整激光功率。一般方法包括:
    0 }1 n9 x1 [  q1 W0 K
  • 监控网络活动指标
  • 预测未来活动
  • 相应调整激光功率
  • 重新配置网络/ o3 L# ^" p2 X

    : L. e7 L7 ^" V  ?/ M让我们看看为不同类型处理器提出的一些具体方案。0 L4 D3 D) V8 j! k$ _% J1 M

    5 g- t! r2 h5 N, n# f4 ~多核CPU设计中的激光调制方案
      S# e0 J2 `& R8 Z' Y( ^" XProbe# F% T  Z: `( k% B; q" ]
    最早提出的激光调制方案之一是Probe。使用64核架构,核心分组为4x4块。每个块都有专用的片外激光器,可以使用单写多读(SWMR)总线广播消息。
    % x9 h* m  N- ~9 ~* ?- k! o3 R9 Y; U% G
    Probe根据链路利用率和缓冲区利用率指标预测未来活动。使用两种类型的预测器:
  • 用于低流量变化:过去和当前利用率的加权平均
  • 用于高变化:由利用率水平索引的模式历史表' a" n) O# O9 L2 Z' }2 l9 C
    [/ol]
    1 [2 V" i" ]! C0 E. D2 u' ~2 r锦标赛预测器根据最近的准确性在两者之间选择。, S  w- f# d+ J! J4 T

    5 w$ F3 u2 J* N) P" m5 f* a- H5 fColdBus; }# @1 d& _" t
    ColdBus采用不同的方法,基于L1缓存未命中预测活动。关键洞察是在共享内存系统中,大部分网络流量来自L1未命中。
    / J2 M7 x9 u( C" ^2 x9 W0 ~) I
    7 W7 M2 \" c8 O$ p/ s% v. F& x使用类似于分支预测器的基于PC的预测器来识别可能导致未命中的指令。然后,一个时期预测器估计这些未命中何时发生。, d7 s1 q# @7 k, t( K* N/ W

    ; r4 g3 f; y: z+ R' g) g' [ColdBus还引入了一个"额外波导",为需要的站点提供应急功率。9 |' G/ g% ~4 K" n! n
    ( F7 E7 t( g- L& A2 R* r' b
    PShaRe! a1 E, s5 o" w+ V
    PShaRe在之前工作的基础上有几个关键创新:
  • 一致性和非一致性流量的独立网络
  • 基于神经网络的非线性预测器
  • 站点之间的功率共享
  • 重用浪费的光功率进行热调谐* f% l0 A, Z0 ?: H4 `' O- A
    [/ol]
    0 N3 ]' ^( _( V( w) X" h图1显示了整体架构:
    / X% \2 z, P- Y" P# E5 C1 Z* L; t2 t. \$ G( k# W

    v0i132opydn64034878813.png

    v0i132opydn64034878813.png

    7 X& R% ^& i6 k7 [* Y图1:PShaRe架构,显示连接光学站点的功率和数据波导。
    ! r3 j9 K) E% u# c+ {( w* \: p. L& q$ e1 D; `
    神经网络预测器使用14个性能计数器输入,对每个站点在下一个时期的活动进行二元预测。. }. [5 f4 X# Y. G! {2 I
    * L* \  A) o! t' s5 X0 g
    BigBus% V  s1 {% a" O4 p
    对于非常大的核心数(500+),需要像BigBus这样的设计。BigBus使用分层架构,将块簇组成更大的单元。
    , b' Y$ y% F5 R6 q: O& }2 i' ?2 g0 F7 u' ]; }+ y6 j
    图2说明了BigBus设计:
    1 G2 f7 A9 d2 G2 O9 _/ [) k- q( D! ?( u

    2lsssyofp4g64034878913.png

    2lsssyofp4g64034878913.png

    ' O* Y: a& r. P- d# g图2:BigBus架构,显示由蛇形光链路连接的核心和缓存库的分层组织。
    0 C5 a& @! x, H; `* Q: F' u" T4 [9 m% Q: h4 ]  e' f
    BigBus使用两阶段预测过程:
  • 每个站点根据等待时间和待处理事件决定是否增加/减少令牌
  • 激光控制器将当前预测与历史数据结合
    7 |, N* r2 z  l' j9 a0 @[/ol]
    & s- I8 o+ B) Y/ F# T0 R" o这允许在当前条件的响应性和稳定性之间取得平衡。
    & }3 B5 r8 Q& X7 f$ j& `' [8 y4 R' S. Q8 j6 [

    3 Q; ~8 j; \  B' L+ _多插槽系统(MULTI-SOCKET SYSTEMS)中的激光调制方案
    " _, _) r8 v7 \对于像服务器这样的多芯片系统,像Nuplet这样的设计将光网络扩展到插槽之间。Nuplet同时使用片内和片间光网络。
    3 Q1 v' z1 ~7 u, \
    + O+ b2 m& D# S" k2 z/ w2 O片间预测机制旨在确定要流通的仲裁令牌数量。它考虑:
  • 发送到片间光学站(ICOS)的消息
  • ICOS队列中的待处理事件5 [4 D8 x% X+ K2 |
    [/ol]
    6 K9 L! y( a4 m) L: Z3 E& w功率请求表(PRT)存储历史令牌计数。预测将PRT值与当前流量趋势和队列状态结合。- }/ n6 @3 R5 @* n* D  r
    " V+ _  P8 m+ i" U. ?, p
    GPU设计中的激光调制方案" c: l( G8 Q. w! u9 ]
    由于GPU侧重于内存带宽而非延迟,因此带来了独特的挑战。GPUOpt设计将光学NoC适配于GPU架构。
    3 g$ }) X; M' G' K  ?1 B- X; U9 e+ X* J  d, }' ~1 [
    图3显示了GPUOpt的整体架构:
    ! y, G/ ~# \) ]9 w# {$ o6 W
    - W- _5 M. w0 @! b( I9 `

    m5tbfrm3byw64034879013.png

    m5tbfrm3byw64034879013.png

    ! {* N! K" c$ t* G" u$ ~" y图3:GPU光学NoC的架构,显示由光网络连接的SM和LLC集群。+ h/ B: E( h* K7 R: m1 A0 j7 D
    7 v" I! L+ h  ], w! \, c
    GPUOpt对流式多处理器(SM)站点和最后级缓存(LLC)站点使用不同的预测机制:2 }5 ~1 r1 y' I, w4 f$ Q; a' q: l6 `
    1. SM站点使用基于以下因素的受限预测器(Restr_Pred):
    4 T" b- X! C( @3 W% @, c
  • 接收的消息
  • 发送的消息
  • 等待时间
    ) O# m8 F- w8 i2 I( F5 P, y

    ( O( T( T+ u7 J. z2. LLC站点使用考虑以下因素的灵活预测器(Flex_Pred):
    3 v4 H; ]; S5 w
  • 接收的消息
  • 发送的消息
  • 待处理事件; U4 L: h0 i/ @* I: Y6 k" y" v, x
    : B5 z% a# q; @2 |" \) N+ k9 H
    激光控制器将这些预测结合起来,确定整体功率需求。! \" o8 ^" _9 z! A' r

    8 v. M7 |: h# O

    . w* P2 W* T% S% |' z& r2 R5 y关键概念和趋势" p. S* J' u2 x0 f" J
    虽然具体方案各不相同,但一些共同主题和最佳实践浮现出来:
      e3 Z/ i2 X- ~1 ]  \; O$ Q/ O5 Q6 y( B' t, X
    1.将时间划分为固定时期进行预测和重新配置
    * f7 \0 v7 h) n. R2. 使用多个输入指标:* n& @/ a+ L' ?) Z& F7 q2 q) x9 p
  • 网络利用率
  • 缓冲区占用率
  • 缓存未命中率
  • 指令类型
  • 待处理事件9 g% Z' v" W$ g- A
    3. 将当前指标与历史数据结合- y2 Y( s0 E- n. `* f
    4. 使用非线性预测函数(如神经网络)捕捉复杂关系
    - j- \# y/ @& X/ k- z5. 对不同流量类型进行单独预测(如一致性与非一致性)
    , N9 C# v( x  y2 J+ _/ B2 V2 K6. 分层设计以实现可扩展性
    1 d+ ]' x8 j0 W8 q% d7. 尽可能重用未使用的光功率2 o# s4 ~5 S! i
    8. 为特定架构经验性地调整预测参数
    / Z! l( n) J, ^  l
      P5 d2 t# n. G- k% T  p4 r" q图4说明了有效激光调制可能带来的功率节省:
    4 H& M2 }; a, L9 r
    2 F- P; N) y2 T# C" i6 T  w

    om02xkr3dhc64034879113.png

    om02xkr3dhc64034879113.png
    3 z: r8 \5 x4 |0 R: l! R
    图4:ideal、Probe和ColdBus方案在各种基准测试中的相对激光功耗。* W5 V( U9 A5 l# U3 P
    & m1 Q6 |: c/ X) `3 g+ K
    7 m5 M6 w2 p/ M8 T( T+ _. R, L% O7 h
    未来方向, Z$ }0 a. |" l: U
    随着光学NoC从研究转向实际实施,可以期待这些技术的进一步完善。方向包括:
    1 W& x; }2 v* b( d  f1 A
  • 用于更准确预测的机器学习技术
  • 与应用层知识的集成
  • 在运行时调整参数的自适应方案
  • 考虑电气和光网络的整体优化
  • 针对新兴工作负载(如AI加速)的专门化
    7 J* b3 O; }9 I. t
    5 o) i: M8 P" q/ b- b
    - V& x* B) \2 U0 U' r1 C
    结论
    5 w4 L" T3 F  X" U, d有效的激光调制对实现光学片上网络的潜在优势非常重要。通过准确预测网络活动并相应调整激光功率,可以在保持性能的同时最小化静态功耗。随着处理器架构继续发展,激光调制方案需要适应新的设计约束和流量模式。该领域的持续研究有望为未来计算系统解锁新的能效水平。* [$ G( ?1 Z0 ~( N. |! Y  h
    ( z+ u$ K' q- x8 _7 K9 U1 j
    7 o6 X" |$ W: M& F
    参考文献
    , N9 N; s5 G' n; j[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.$ h" H8 h* Q$ g1 D3 X  C3 @
    , j, B/ Y8 ~( n' O' x+ l
    - END -+ n% |) Y- P3 R. r' t, W+ Z# K
    2 R2 G2 f1 Q; ^: H. p% V6 M+ E
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    2 {/ v. Z; A) k, m& b& ?- R' E点击左下角"阅读原文"马上申请* f0 r  {6 {# H6 g0 ^! @
    , L* b( K) J' p5 u
    欢迎转载) v  E! H% r8 [

    , Q0 H& w1 P* y" \5 {. [1 r8 l2 w转载请注明出处,请勿修改内容和删除作者信息!- q3 D' R/ d5 c3 O' v5 Z

    9 j5 P5 F' e3 r1 v, c0 |& T3 V7 q9 j) K
    ( ^0 ^$ G2 i4 {5 c

    tlesfwadvw464034879213.gif

    tlesfwadvw464034879213.gif
    % _0 y' f# d5 K. j: \/ c

    7 [$ C; ~( I" X9 {8 ^. a) B6 \关注我们: t, k2 F9 X: c# T

    1 T, k9 r0 [  K

    ( J" d6 O8 ~" a4 T2 g* H

    0rzxntnecf364034879313.png

    0rzxntnecf364034879313.png

    6 Q: O6 k% R( ~8 F: m
      X, N& R6 g& N+ K$ t- W* w

    wklhaednp3g64034879413.png

    wklhaednp3g64034879413.png
    & X3 q/ l8 `) Y$ W" s5 O6 |" w

    4 T0 \' `( y% B. j2 g

    v05awecejyj64034879513.png

    v05awecejyj64034879513.png

    ! f# [% x$ L  q1 b1 i
                         
    6 D. Y( z5 P5 g( {, ~: L4 X4 H
    8 q4 v- K0 L3 K' S5 ~1 K' G

    / g( K- a6 V- S0 ]  [9 u+ H% `- t
    + n4 v6 t4 f1 }  r; E关于我们:* h* e, E7 {" I; ~* _/ Q9 {  X' t
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。, g! P% Y8 A2 |2 `" }

    2 q6 I5 ?1 u6 mhttp://www.latitudeda.com/% ~) ]) P1 I% w
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表