电子产业一站式赋能平台

PCB联盟网

搜索
查看: 63|回复: 0
收起左侧

光学片上网络的激光调制方案

[复制链接]

670

主题

670

帖子

5775

积分

四级会员

Rank: 4

积分
5775
发表于 2024-9-18 08:00:00 | 显示全部楼层 |阅读模式
引言
% J- Y! i+ ~, J随着硅晶体管缩放接近极限,研究人员正在探索新技术以继续提高处理器性能和效率。有前途的方向是使用片上光学网络(也称为光学片上网络或光学NoC)来替代传统的电气互连。与电气网络相比,光学NoC在带宽、延迟和功耗方面具有潜在优势。然而,有效管理光学NoC的功耗带来了新的挑战[1]。
7 T2 e' u. k6 T. v8 V. L$ t/ H& r" L5 b8 ~7 b
本文将探讨用于最小化光学NoC静态功耗的激光调制方案。我们将介绍基于网络活动动态调制激光功率的关键概念、架构和预测技术。# {0 y5 J; J2 B
4 d! u1 J0 n) g, a6 g
  q: y( n; j7 t0 z  b. f
背景) M* R0 ?/ b$ a! q
光学NoC使用光来传输芯片上组件之间的数据。基本构建模块包括:) n  N' Z- k! @/ t! _" f, v) X/ f* b
  • 激光器:光源,可以是片外或片上
  • 调制器:将电信号转换为光信号
  • 波导:在芯片上引导光
  • 光电探测器:将光信号转换回电信号  L2 T3 t) p3 p( N
    - y6 v2 B! u+ B: b
    光传输本身非常高效,但产生光的激光器消耗大量功率。一个关键挑战是光子不能像电荷那样容易存储。这意味着激光器通常需要持续供电,即使不主动传输数据时也是如此。这种静态功耗可能占光学NoC总功耗的80-90%。( k( {0 {# W, ]

    $ b" R1 w  K( v4 m1 A+ @; V2 h- s为解决这个问题,研究人员开发了激光调制方案,旨在根据预测的网络活动动态调整激光功率。一般方法包括:0 w( z8 g8 a( p, J. m
  • 监控网络活动指标
  • 预测未来活动
  • 相应调整激光功率
  • 重新配置网络( A& w1 X1 ?3 |& l# z) m. T
      V8 V2 q% X( u4 T' @
    让我们看看为不同类型处理器提出的一些具体方案。
    / {$ J- H8 k0 _% D' y3 t
    # O- ?/ J( J2 @多核CPU设计中的激光调制方案; g& J; o' D/ r" i4 m$ l: H
    Probe! X1 P1 `" f  ~* i9 b
    最早提出的激光调制方案之一是Probe。使用64核架构,核心分组为4x4块。每个块都有专用的片外激光器,可以使用单写多读(SWMR)总线广播消息。
    ' E) x" |5 i# d  U, P  J9 F6 t5 Y# M! M* h. h: s- }6 E5 u7 }0 t
    Probe根据链路利用率和缓冲区利用率指标预测未来活动。使用两种类型的预测器:
  • 用于低流量变化:过去和当前利用率的加权平均
  • 用于高变化:由利用率水平索引的模式历史表
    4 H& K5 z: |  y0 q[/ol]
    ' Q3 h0 k7 n# t- A0 m$ U4 s. M锦标赛预测器根据最近的准确性在两者之间选择。3 _/ i) W1 C' v8 ^
    - [: H" p* |6 S: @. Y9 A, e6 N& v3 Y+ T
    ColdBus' q( n+ ^/ C7 B& e
    ColdBus采用不同的方法,基于L1缓存未命中预测活动。关键洞察是在共享内存系统中,大部分网络流量来自L1未命中。2 }* n! H* h( y, @' {, n
    3 X0 ?% {/ Y0 [( `
    使用类似于分支预测器的基于PC的预测器来识别可能导致未命中的指令。然后,一个时期预测器估计这些未命中何时发生。
    & ]" m' n" V& w  e& y- t8 N' F8 j) m+ `$ A) B& x3 b) [
    ColdBus还引入了一个"额外波导",为需要的站点提供应急功率。$ H, I, t: u- ]1 o/ ~
    " H) b0 X2 c" ~# ]# b% o& i' p5 w
    PShaRe
    & n6 r8 x/ V9 d2 s1 N0 T. G% HPShaRe在之前工作的基础上有几个关键创新:
  • 一致性和非一致性流量的独立网络
  • 基于神经网络的非线性预测器
  • 站点之间的功率共享
  • 重用浪费的光功率进行热调谐
      ]" X, M" X7 B[/ol]5 K# D6 t* `2 L3 Z! a: e! U
    图1显示了整体架构:* k* c8 S. J/ I, o

    ; V& Q5 k( r, n" ~! X

    v0i132opydn64034878813.png

    v0i132opydn64034878813.png
    * h5 S9 K6 v& A' ?: X  B4 ~1 P8 \
    图1:PShaRe架构,显示连接光学站点的功率和数据波导。
    9 l; K5 G( g7 [( G0 K) {/ M. g) s% i# Q9 O+ A8 C: G
    神经网络预测器使用14个性能计数器输入,对每个站点在下一个时期的活动进行二元预测。; Z7 [/ {0 z  y* `8 E" T

    / V& z  q; p4 q+ CBigBus5 x, y, ^2 V  ?7 L4 n
    对于非常大的核心数(500+),需要像BigBus这样的设计。BigBus使用分层架构,将块簇组成更大的单元。7 L" l  w/ y+ J, U  L
    & z  |4 P4 ]4 ?8 j7 M/ d
    图2说明了BigBus设计:
    1 ^3 y) z. S6 w! S- ^0 B5 E; |- _- y0 |+ n6 ~1 @

    2lsssyofp4g64034878913.png

    2lsssyofp4g64034878913.png
    7 U2 [3 p, b$ T1 i' d
    图2:BigBus架构,显示由蛇形光链路连接的核心和缓存库的分层组织。
    0 f; M0 r# L$ e6 N7 k
    % s: l3 B! R" U8 g1 i$ BBigBus使用两阶段预测过程:
  • 每个站点根据等待时间和待处理事件决定是否增加/减少令牌
  • 激光控制器将当前预测与历史数据结合$ n7 b8 \  v% z  k
    [/ol]
    & v7 u6 @4 w: P. i9 J5 G1 Z; G9 j+ R这允许在当前条件的响应性和稳定性之间取得平衡。
    6 b3 G  S4 G8 T. \( G% d* v
    4 ], t: N- `: h: K' O: z3 ~
    ) Y9 \! F! H# Y: o" k5 M
    多插槽系统(MULTI-SOCKET SYSTEMS)中的激光调制方案
    & |1 H+ _! f) [6 F1 w3 ~' K对于像服务器这样的多芯片系统,像Nuplet这样的设计将光网络扩展到插槽之间。Nuplet同时使用片内和片间光网络。* t8 O6 {& V9 ]  V* }

    " y  v. N0 ~9 k7 }6 S- a7 [- C片间预测机制旨在确定要流通的仲裁令牌数量。它考虑:
  • 发送到片间光学站(ICOS)的消息
  • ICOS队列中的待处理事件
    $ @/ n: E0 g1 i+ @7 {, Y[/ol]
    - |9 a) Y7 C# h1 P4 ~. X7 p功率请求表(PRT)存储历史令牌计数。预测将PRT值与当前流量趋势和队列状态结合。
    + E+ U+ C# j( q# o$ {# y2 S: s& U, N/ x8 B, v
    GPU设计中的激光调制方案5 t9 U+ H% P( \; p5 U! t4 h: r
    由于GPU侧重于内存带宽而非延迟,因此带来了独特的挑战。GPUOpt设计将光学NoC适配于GPU架构。# u( H" H  v& ^

    + b7 B$ y( C: {3 _( M" a图3显示了GPUOpt的整体架构:5 \9 u# {  e( e5 M( ?% h
    & z5 N( ^. O4 j1 I; I' p

    m5tbfrm3byw64034879013.png

    m5tbfrm3byw64034879013.png

    8 `0 Y9 O* w6 S0 o( s图3:GPU光学NoC的架构,显示由光网络连接的SM和LLC集群。
    ( \4 r' {" ^( g( D" i* g( w2 @6 y2 A$ {' [
    GPUOpt对流式多处理器(SM)站点和最后级缓存(LLC)站点使用不同的预测机制:
    . J0 W$ @; P* [! k: t* f& n1. SM站点使用基于以下因素的受限预测器(Restr_Pred):; u+ Y; Q, {8 x* m$ B  S3 M
  • 接收的消息
  • 发送的消息
  • 等待时间/ v- C7 D1 E  Y$ H; ?0 i5 l
    & `& y7 e0 Y% H9 D' H" x
    2. LLC站点使用考虑以下因素的灵活预测器(Flex_Pred):( F* S# T: l" Z, m
  • 接收的消息
  • 发送的消息
  • 待处理事件6 |+ g, E" B0 G! {8 g

    ; E0 `; a# n! V( j激光控制器将这些预测结合起来,确定整体功率需求。1 Y- N+ G& J+ w7 L
    , M  e0 {) D& J% W, P. ?$ G% u

      q. S& i  c3 t3 K. ~7 w7 H关键概念和趋势% L: i( y! a  L1 h
    虽然具体方案各不相同,但一些共同主题和最佳实践浮现出来:
    ( R" T, Q; K6 O: X4 h+ G& @" L
    ( A1 k$ a0 {0 T" N, [! c# a1.将时间划分为固定时期进行预测和重新配置2 `  ]6 I+ k1 ?! Q7 x6 h; v
    2. 使用多个输入指标:
    / c+ t( j6 m9 g, v# c
  • 网络利用率
  • 缓冲区占用率
  • 缓存未命中率
  • 指令类型
  • 待处理事件* ~6 U! D1 s! O
    3. 将当前指标与历史数据结合
    $ E/ @3 R0 \/ D5 s* E, T: L' ]! j, E4. 使用非线性预测函数(如神经网络)捕捉复杂关系
      F: G2 W; ?, O7 B5. 对不同流量类型进行单独预测(如一致性与非一致性)
    2 S- l- A# N6 A8 t. V8 p3 S- i) u6. 分层设计以实现可扩展性9 W4 Z: _& H! `7 e+ W
    7. 尽可能重用未使用的光功率
    % w8 @* h1 L  ?+ M8 f" [8 w) c8. 为特定架构经验性地调整预测参数
      C8 o7 D$ L# h  @* H! b5 z& v! A' s7 o/ K2 s- [8 t
    图4说明了有效激光调制可能带来的功率节省:
    / I5 |% a6 M( Y6 F
    4 v* O! n0 I, P

    om02xkr3dhc64034879113.png

    om02xkr3dhc64034879113.png
    + v% k& F9 u* {& o
    图4:ideal、Probe和ColdBus方案在各种基准测试中的相对激光功耗。1 ]7 h; \* s1 p$ u- A0 p; p$ x
    ) y3 c. p" w4 }+ R

    / f) G2 h% V& |7 S0 [) v未来方向
    7 v2 y/ M7 C6 y  k& S* V: B随着光学NoC从研究转向实际实施,可以期待这些技术的进一步完善。方向包括:* ^* E) P$ @* y% f% q' B; I
  • 用于更准确预测的机器学习技术
  • 与应用层知识的集成
  • 在运行时调整参数的自适应方案
  • 考虑电气和光网络的整体优化
  • 针对新兴工作负载(如AI加速)的专门化
    ! \3 d/ r- y! w" j, F) m
    6 Z! o  q* `* ~

    ) K% N8 V7 {; H* k2 Y结论
    0 }5 U* c# ]/ I* }) J+ N9 H有效的激光调制对实现光学片上网络的潜在优势非常重要。通过准确预测网络活动并相应调整激光功率,可以在保持性能的同时最小化静态功耗。随着处理器架构继续发展,激光调制方案需要适应新的设计约束和流量模式。该领域的持续研究有望为未来计算系统解锁新的能效水平。0 k' a" K5 G$ R# g
    8 _6 i8 b" H3 _0 F
    ! R4 X4 X# a0 l1 k+ [
    参考文献2 W3 U$ X& D0 i0 K1 ~+ N1 c
    [1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.; y- E% J9 q! g( u0 s" \5 N$ r
    5 d/ q8 z- x/ a1 w) X$ n& z2 Z
    - END -& ]- t9 ?7 e" C) [' I

    6 L; A1 z. [4 w9 ]/ q软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
    & d1 Z% `) g6 Y7 ]点击左下角"阅读原文"马上申请* W- _0 i+ p+ O  k& x" x, b

    5 ~" y3 N* t; _, G; Y9 h欢迎转载
    , g# N: e9 S8 M- w
    1 F# d3 R. @7 ?% L. G转载请注明出处,请勿修改内容和删除作者信息!  C0 j: }4 l+ J- o; x( D
    9 z2 H! l/ n: u. V  @5 J0 H
    6 @9 D* ?& \/ K! R

    7 n5 Y! g, I/ O+ d0 R: g

    tlesfwadvw464034879213.gif

    tlesfwadvw464034879213.gif
    # t+ A% J+ ^. ~0 d
    ( R5 c9 g7 J% s2 Q' G
    关注我们, i5 O6 W; J5 p6 A; q

    7 [6 S: h1 k0 Z

    8 D) `) ]' D1 g4 l- ?8 Z

    0rzxntnecf364034879313.png

    0rzxntnecf364034879313.png
    / ~5 |5 z3 t- S8 Q; W
    ! }$ c$ [5 g) F4 K# H

    wklhaednp3g64034879413.png

    wklhaednp3g64034879413.png
    $ p" |% F  J6 y
    # c; \2 F4 L& L4 v+ @" w! F. v

    v05awecejyj64034879513.png

    v05awecejyj64034879513.png
    $ j$ D# v/ L! C( y: @5 O
                         
    . Q9 M  }4 W! E% w
    0 n/ l9 R7 y# s9 ?* {" s0 c

    ) c4 g2 U0 ^: y. E( T' ^; W
    7 @2 w! ?. {5 y- A/ y关于我们:2 P% a- f: U' }9 F* W
    深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。, E% E/ B' H# g/ [6 X

    ) `$ j0 h9 t6 Z3 H6 m9 b- Rhttp://www.latitudeda.com/' Y3 L+ r$ l* u6 K
    (点击上方名片关注我们,发现更多精彩内容)
  • 回复

    使用道具 举报

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    联系客服 关注微信 下载APP 返回顶部 返回列表