电子产业一站式赋能平台

PCB联盟网

搜索
查看: 10|回复: 0
收起左侧

光学片上网络的激光调制方案

[复制链接]

341

主题

341

帖子

1594

积分

三级会员

Rank: 3Rank: 3

积分
1594
发表于 2024-9-18 08:00:00 | 显示全部楼层 |阅读模式
引言1 e. A8 N5 D3 D+ ^2 v0 ^4 J1 n9 A
随着硅晶体管缩放接近极限,研究人员正在探索新技术以继续提高处理器性能和效率。有前途的方向是使用片上光学网络(也称为光学片上网络或光学NoC)来替代传统的电气互连。与电气网络相比,光学NoC在带宽、延迟和功耗方面具有潜在优势。然而,有效管理光学NoC的功耗带来了新的挑战[1]。
$ H/ i% k* l5 t/ s* e5 \
' T8 n" u) P! l+ U本文将探讨用于最小化光学NoC静态功耗的激光调制方案。我们将介绍基于网络活动动态调制激光功率的关键概念、架构和预测技术。
& A& \; |. H% E  O
2 L. l4 I& z9 y0 {: o0 T
! E# m! O  F: t" E+ S7 d
背景
4 Z2 ?1 f0 w; P0 D/ ~光学NoC使用光来传输芯片上组件之间的数据。基本构建模块包括:
# W. A6 e% i3 `% V. T& L; d
  • 激光器:光源,可以是片外或片上
  • 调制器:将电信号转换为光信号
  • 波导:在芯片上引导光
  • 光电探测器:将光信号转换回电信号
    ) g2 K6 ~8 l9 ]# h1 [* {

    ! Q. x8 T0 R8 h& S, ~光传输本身非常高效,但产生光的激光器消耗大量功率。一个关键挑战是光子不能像电荷那样容易存储。这意味着激光器通常需要持续供电,即使不主动传输数据时也是如此。这种静态功耗可能占光学NoC总功耗的80-90%。
    2 b( ]5 }0 K: ~1 b+ ~5 s% m) u/ a9 g+ J( V  Z3 @9 d! X5 @
    为解决这个问题,研究人员开发了激光调制方案,旨在根据预测的网络活动动态调整激光功率。一般方法包括:
    3 v) Z& Q: I( B* k- f6 e# R: m0 j
  • 监控网络活动指标
  • 预测未来活动
  • 相应调整激光功率
  • 重新配置网络. s2 E6 t6 R0 E' t. \% G

    ' P+ @' I4 k4 X% s4 p9 i让我们看看为不同类型处理器提出的一些具体方案。; X  Q) e2 |; B5 g  S% s. ~) T6 x7 w( {4 O

    # o6 C3 @/ t. E# Z+ L多核CPU设计中的激光调制方案: @' w! g! A1 I
    Probe
    - e+ l% D! d2 O/ }$ a9 q0 p9 D, K1 d5 x最早提出的激光调制方案之一是Probe。使用64核架构,核心分组为4x4块。每个块都有专用的片外激光器,可以使用单写多读(SWMR)总线广播消息。3 _) C( q! n# z# B/ e& S5 v
    " g# `( x7 C# @4 F* M: y7 c
    Probe根据链路利用率和缓冲区利用率指标预测未来活动。使用两种类型的预测器:
  • 用于低流量变化:过去和当前利用率的加权平均
  • 用于高变化:由利用率水平索引的模式历史表
    ( q% F# C; U! z3 \[/ol]
    7 l3 i9 c9 W* o2 r( N锦标赛预测器根据最近的准确性在两者之间选择。7 w3 C5 I  O+ R  T: l+ ?3 W" G7 u3 f

    9 ^1 T# E) M+ e  f% DColdBus
    ' Y2 j5 L- r+ w4 M) cColdBus采用不同的方法,基于L1缓存未命中预测活动。关键洞察是在共享内存系统中,大部分网络流量来自L1未命中。, B% o4 T5 M3 H2 v9 [
    9 n8 n" s! h4 i
    使用类似于分支预测器的基于PC的预测器来识别可能导致未命中的指令。然后,一个时期预测器估计这些未命中何时发生。: Q; T' X7 N! }# s, Z' W2 k! u

    * `% }' G0 R5 E- ]) V; v7 h- Z; cColdBus还引入了一个"额外波导",为需要的站点提供应急功率。5 H+ V& r( F; s& {  F; a( ?
    8 V3 _; ^/ f7 S& `
    PShaRe% ?: `& q7 g2 H# ~" C9 }
    PShaRe在之前工作的基础上有几个关键创新:
  • 一致性和非一致性流量的独立网络
  • 基于神经网络的非线性预测器
  • 站点之间的功率共享
  • 重用浪费的光功率进行热调谐
    8 [: [9 {5 e) w* O6 M[/ol]
    - l' j) U) F9 S3 ?( ^, Y图1显示了整体架构:
    % K3 F% P3 J7 ^7 L% Y/ M( X' K- Q! `% j+ Q

    v0i132opydn64034878813.png

    v0i132opydn64034878813.png
    : r7 U8 L; _$ j- ^0 d" E7 x
    图1:PShaRe架构,显示连接光学站点的功率和数据波导。6 @' E+ g8 Q7 \/ X2 ?) g
    5 Z7 |  X2 g; ]2 R  ~$ m2 o; I$ |( e
    神经网络预测器使用14个性能计数器输入,对每个站点在下一个时期的活动进行二元预测。
    ! L0 R; _; }0 Z  V' ^4 n+ o( l6 ~2 O, w) H6 M3 R
    BigBus
      G' I3 L' O: e# c9 [9 u+ c对于非常大的核心数(500+),需要像BigBus这样的设计。BigBus使用分层架构,将块簇组成更大的单元。2 t5 _& R. |- X2 u  ^4 }& r. ]* Z
    ( w8 v0 f7 t& \+ b; y* S
    图2说明了BigBus设计:
    " P& |1 ]& u. D) A0 W# Z, `+ i! ]0 `* ^

    2lsssyofp4g64034878913.png

    2lsssyofp4g64034878913.png

    % _' ~9 `+ {/ \" d- s图2:BigBus架构,显示由蛇形光链路连接的核心和缓存库的分层组织。% ]. P- Q; m- z. G7 r: P

    4 ^. A+ L7 Q5 R! H; b0 U/ |BigBus使用两阶段预测过程:
  • 每个站点根据等待时间和待处理事件决定是否增加/减少令牌
  • 激光控制器将当前预测与历史数据结合
      A7 j7 l6 v8 w. M[/ol]2 ?6 |/ |0 ?# {7 v  \
    这允许在当前条件的响应性和稳定性之间取得平衡。7 \' o( V1 F' }) I' X5 U: i
    / m3 `1 M: C9 b2 Q4 W
    : S4 e5 n$ [; D5 y
    多插槽系统(MULTI-SOCKET SYSTEMS)中的激光调制方案8 ^( ^" y" X9 ^
    对于像服务器这样的多芯片系统,像Nuplet这样的设计将光网络扩展到插槽之间。Nuplet同时使用片内和片间光网络。: c' N; C' x, u

    8 w) o8 F& Q5 H片间预测机制旨在确定要流通的仲裁令牌数量。它考虑:
  • 发送到片间光学站(ICOS)的消息
  • ICOS队列中的待处理事件  [. {6 I9 [7 ^( O" X
    [/ol]- a/ U# s3 b* U( Z3 R
    功率请求表(PRT)存储历史令牌计数。预测将PRT值与当前流量趋势和队列状态结合。
    ; e3 I0 Q$ n, G: r2 K! Q' }, q3 l7 p, D
    GPU设计中的激光调制方案* ]! {9 J/ j9 t5 W: b/ ?
    由于GPU侧重于内存带宽而非延迟,因此带来了独特的挑战。GPUOpt设计将光学NoC适配于GPU架构。
    7 z& N2 Y; ~0 R- A3 f& f  f( o! t  l* [8 b7 u% f. v9 K
    图3显示了GPUOpt的整体架构:1 A6 r7 g0 ^; j6 l6 d% Q

    ' i# ]4 W" d+ n* J

    m5tbfrm3byw64034879013.png

    m5tbfrm3byw64034879013.png

    / _& J( O: o6 E  c; H1 v9 ?图3:GPU光学NoC的架构,显示由光网络连接的SM和LLC集群。
    # v( G* E9 s4 E7 S  Y1 G. t, [6 P
    0 C! n# F8 \  [GPUOpt对流式多处理器(SM)站点和最后级缓存(LLC)站点使用不同的预测机制:+ J$ W2 y7 S2 Z. ^- @* Q
    1. SM站点使用基于以下因素的受限预测器(Restr_Pred):
    2 X% X+ ^3 O9 S' i% y
  • 接收的消息
  • 发送的消息
  • 等待时间
      H" q8 @  d2 X; U( f* N3 ]  _

    9 A# A! q& p4 O! X# F$ u2. LLC站点使用考虑以下因素的灵活预测器(Flex_Pred):
    $ G; X! o- j) j
  • 接收的消息
  • 发送的消息
  • 待处理事件6 x- T& S3 ~% T1 N

    - i0 y& N) J# }激光控制器将这些预测结合起来,确定整体功率需求。! R, m+ e1 b' t. q

    ; l: v1 v2 o0 N0 q7 ^0 ]- o' s
    ; A5 W8 V9 _3 L+ a
    关键概念和趋势! {) C; l( I2 X% T$ D
    虽然具体方案各不相同,但一些共同主题和最佳实践浮现出来:
    + v& m6 P1 H: R# o0 S1 e! }8 U  `) y
    1.将时间划分为固定时期进行预测和重新配置: g  _- E& ~8 M5 h! i1 w. t
    2. 使用多个输入指标:. D) v( E; l0 Y( m& r
  • 网络利用率
  • 缓冲区占用率
  • 缓存未命中率
  • 指令类型
  • 待处理事件
    5 I4 t% {0 z) ~- R, c
    3. 将当前指标与历史数据结合% }7 d( m* P4 H) O3 }  Y8 K
    4. 使用非线性预测函数(如神经网络)捕捉复杂关系' Q/ T: S+ N) E2 e- ?* J' X' b4 R$ j4 S
    5. 对不同流量类型进行单独预测(如一致性与非一致性). ~0 P  t; o" C1 d2 p/ k2 N1 \: @5 ?
    6. 分层设计以实现可扩展性
    3 {8 Z/ |: P( s' ]; R  `# V7. 尽可能重用未使用的光功率
    / v) V9 y2 G' l/ \7 C& N8. 为特定架构经验性地调整预测参数
    6 q% B6 ~! I9 \: N/ ^. G0 D( K( F4 e! ~& T
    图4说明了有效激光调制可能带来的功率节省:
    % ]3 g0 c' d) g# S! F/ f3 A1 [0 D2 s/ G; [

    om02xkr3dhc64034879113.png

    om02xkr3dhc64034879113.png
    ; c) |+ x% l& e& `: H% A" A8 B. p
    图4:ideal、Probe和ColdBus方案在各种基准测试中的相对激光功耗。+ p; p. I5 q5 o' J
    ! ?5 i4 g8 U, r  k# {1 R
    ( f) h3 x7 m7 b$ A. r) ^+ S  V
    未来方向( Z+ @; q# p( R+ @2 b
    随着光学NoC从研究转向实际实施,可以期待这些技术的进一步完善。方向包括:
    " v3 C  y) m+ S2 H" X. [) Z) b
  • 用于更准确预测的机器学习技术
  • 与应用层知识的集成
  • 在运行时调整参数的自适应方案
  • 考虑电气和光网络的整体优化
  • 针对新兴工作负载(如AI加速)的专门化: E: I5 Y) a1 w& B8 v: _) T

    . Z2 M; N' O! e. H
    / Y# ^6 P# j1 `
    结论5 t0 \& k: ?9 k& S
    有效的激光调制对实现光学片上网络的潜在优势非常重要。通过准确预测网络活动并相应调整激光功率,可以在保持性能的同时最小化静态功耗。随着处理器架构继续发展,激光调制方案需要适应新的设计约束和流量模式。该领域的持续研究有望为未来计算系统解锁新的能效水平。* p, I& n/ d3 A: O0 w8 \

    + _& u+ s# c. V4 j* c( Y) X

    9 Z6 x# h! J2 ~. e2 Y9 l  I参考文献
    0 Y* F6 h# j- r9 [" r[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.
    * E1 f) n! t' ^1 r; ~/ x7 _( z5 o. U9 q1 @( C, Z( n
    - END -
    / ?4 P  n2 q- l: v: @% h) C2 s) S
    软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。! l6 r( r) G3 }
    点击左下角"阅读原文"马上申请! G/ m' Y, w9 t' W* v. c7 h
    0 _' F' V- Q& _
    欢迎转载
    " m" L. V1 w) E+ P, l! b& J0 b) |" c1 p6 |# |8 H  q
    转载请注明出处,请勿修改内容和删除作者信息!& w# ~+ l/ a) o8 U7 }1 X0 H* y

    * c* l/ K9 a( G7 Y
    . q8 S& C+ x' q" n8 n
    1 b  v+ H! n: u

    tlesfwadvw464034879213.gif

    tlesfwadvw464034879213.gif
    8 S& G# U! P& s  G' ^" f. f5 }

    0 Q/ X0 T  P. q关注我们
    6 X' A' O  ^6 j: H* L3 }7 {) X
    # x5 R" h7 r4 ]) A+ o, p
    * A* {3 _! K( x

    0rzxntnecf364034879313.png

    0rzxntnecf364034879313.png
    # W7 ?: w1 a  \! ]

    9 h) i9 {0 E7 o( R; v9 O

    wklhaednp3g64034879413.png

    wklhaednp3g64034879413.png
    + G& E7 S  r. U5 r

    " E3 |+ v7 g& M, a8 I

    v05awecejyj64034879513.png

    v05awecejyj64034879513.png
    3 L# h0 W) l. l
                          ; L/ w8 `9 Q! _+ m
    / L6 z6 u/ l/ F) M6 F* Z
      u5 M* [2 H8 o4 }* H

    1 W, r' h) f- Z+ c! v# h4 U8 K关于我们:- }8 D& l( P. N0 h2 T
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。- h4 A& N, b* k6 P  ^# G4 ~$ |+ h- z
    * S' A* g6 u; k+ e3 r
    http://www.latitudeda.com/1 _6 x/ ^! ^" q; V" _
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表