|
引言
$ b# W% j: C0 A# t1 p随着硅晶体管缩放接近极限,研究人员正在探索新技术以继续提高处理器性能和效率。有前途的方向是使用片上光学网络(也称为光学片上网络或光学NoC)来替代传统的电气互连。与电气网络相比,光学NoC在带宽、延迟和功耗方面具有潜在优势。然而,有效管理光学NoC的功耗带来了新的挑战[1]。1 \* C! f. P8 H5 `
, f1 s8 Q5 N9 T
本文将探讨用于最小化光学NoC静态功耗的激光调制方案。我们将介绍基于网络活动动态调制激光功率的关键概念、架构和预测技术。& u1 x! ?1 P% S _& C* }7 \0 o
3 p. p, E, e+ o+ U3 b
. q2 o2 x: [; O0 O
背景, M e) ~& S; B+ g1 x
光学NoC使用光来传输芯片上组件之间的数据。基本构建模块包括:
t3 x, G* I% S" c0 q; z/ R激光器:光源,可以是片外或片上调制器:将电信号转换为光信号波导:在芯片上引导光光电探测器:将光信号转换回电信号0 @* z& Z+ E9 J: D! V
1 r4 z: P3 ^$ J/ u% m7 m2 C$ `' e
光传输本身非常高效,但产生光的激光器消耗大量功率。一个关键挑战是光子不能像电荷那样容易存储。这意味着激光器通常需要持续供电,即使不主动传输数据时也是如此。这种静态功耗可能占光学NoC总功耗的80-90%。
1 V$ C4 n7 F7 }$ ~! B* Z! v3 s) [+ a/ I5 c
为解决这个问题,研究人员开发了激光调制方案,旨在根据预测的网络活动动态调整激光功率。一般方法包括:) w7 R6 u6 s; N0 x4 [; O
监控网络活动指标预测未来活动相应调整激光功率重新配置网络# @+ Y3 c& E5 Z7 h
5 ~! @) D5 i6 Q6 H( Z6 z; A9 m让我们看看为不同类型处理器提出的一些具体方案。
% k2 X( V# a' R. c& K- P5 A/ A% D8 V( {# C; A3 w7 N2 `* v3 \
多核CPU设计中的激光调制方案
" e8 \* c. n+ n0 \( aProbe
/ _! P' K6 T0 i, [$ N: }6 e最早提出的激光调制方案之一是Probe。使用64核架构,核心分组为4x4块。每个块都有专用的片外激光器,可以使用单写多读(SWMR)总线广播消息。
* Q; d' r- `% y; W
- g1 @; |" G% j4 j/ ?Probe根据链路利用率和缓冲区利用率指标预测未来活动。使用两种类型的预测器:用于低流量变化:过去和当前利用率的加权平均用于高变化:由利用率水平索引的模式历史表' _ ]% Q6 D- `# R+ T
[/ol]: @7 V' V5 v3 C% p% T: d; u9 `
锦标赛预测器根据最近的准确性在两者之间选择。
0 W4 I! B1 F& x( \0 b" n# B* B: o: F! ^8 I" T/ `
ColdBus1 Q- t3 j8 I# `+ n D$ q* G
ColdBus采用不同的方法,基于L1缓存未命中预测活动。关键洞察是在共享内存系统中,大部分网络流量来自L1未命中。) c& F4 o) q ~( M" {, R {
, Z) [9 G* e$ E1 B6 k; x. `, A& O% b$ ^使用类似于分支预测器的基于PC的预测器来识别可能导致未命中的指令。然后,一个时期预测器估计这些未命中何时发生。
0 Q; F- N! b0 E5 J m- H5 P' {. x5 X" a8 T6 A1 `7 p
ColdBus还引入了一个"额外波导",为需要的站点提供应急功率。
' p. I Z: l; ]3 r: B* a8 G9 h# I. I: f- G) Q* v
PShaRe! w9 c _/ e; V' b% ~
PShaRe在之前工作的基础上有几个关键创新:一致性和非一致性流量的独立网络基于神经网络的非线性预测器站点之间的功率共享重用浪费的光功率进行热调谐& e; P3 z1 J0 W( ~+ V9 e+ t9 M
[/ol]
6 H# o% D" N0 g9 S, g图1显示了整体架构:$ V- Y7 b7 R& {( p% t2 B' v5 P
" C) D7 {0 c& M7 D1 d6 A) g
v0i132opydn64034878813.png
# X' \: o$ g6 W+ }+ N3 _: D图1:PShaRe架构,显示连接光学站点的功率和数据波导。5 C6 ?* g* Y! X* b7 f: c+ G: e! g+ L
1 V4 b6 Y7 H2 W0 X+ Y1 K7 Y神经网络预测器使用14个性能计数器输入,对每个站点在下一个时期的活动进行二元预测。* b+ Y. P( A" @4 H6 R: u
% a8 m7 B0 M( Z& h2 y# `3 @
BigBus& p/ R; G1 t; L& n
对于非常大的核心数(500+),需要像BigBus这样的设计。BigBus使用分层架构,将块簇组成更大的单元。
. I% V: d% a! n) {4 h# ~4 f" [- [: ^" f& e/ Q
图2说明了BigBus设计:. J1 G+ `" F2 h/ _! [4 X7 g! T
7 O* Q! Z t; u4 O, a% |3 j' N
2lsssyofp4g64034878913.png
" r0 v1 Z# Y1 \6 p( \6 X图2:BigBus架构,显示由蛇形光链路连接的核心和缓存库的分层组织。- S/ D/ g. b( S: K1 r( d
. F6 [2 E* W9 m
BigBus使用两阶段预测过程:每个站点根据等待时间和待处理事件决定是否增加/减少令牌激光控制器将当前预测与历史数据结合0 J& y0 B9 N* p. }. `
[/ol]
, H# d& t8 m# @7 ^8 z4 b这允许在当前条件的响应性和稳定性之间取得平衡。4 `% k" B+ k0 F1 v1 r3 k
# u5 K7 w2 `/ b K. v- g; X: C. U
多插槽系统(MULTI-SOCKET SYSTEMS)中的激光调制方案
3 S: Q( V$ U ?& D W对于像服务器这样的多芯片系统,像Nuplet这样的设计将光网络扩展到插槽之间。Nuplet同时使用片内和片间光网络。) G. T. i" ]& `; Y: I' o. w' K
7 X0 {! [: |3 x5 Z. r! v片间预测机制旨在确定要流通的仲裁令牌数量。它考虑:发送到片间光学站(ICOS)的消息ICOS队列中的待处理事件0 a- k' y5 L$ r& v; L
[/ol]+ K0 Y! @8 a2 H
功率请求表(PRT)存储历史令牌计数。预测将PRT值与当前流量趋势和队列状态结合。
3 x& {3 u6 ]5 ^( c
& P: k9 l" F# a* N* h) X4 qGPU设计中的激光调制方案
& F0 s6 E$ k$ Y8 s由于GPU侧重于内存带宽而非延迟,因此带来了独特的挑战。GPUOpt设计将光学NoC适配于GPU架构。: p8 o3 l, D9 {% e; Y2 @, h# _4 N
2 N# ~. f* n( X# z1 E% {
图3显示了GPUOpt的整体架构:/ I4 T+ i, W% ^+ G( ?4 ?* B& b# l
' R2 ?9 p$ o: }' j2 w# |* X
m5tbfrm3byw64034879013.png
$ l) y0 w/ Q- } t) W' f( c! x) O/ N图3:GPU光学NoC的架构,显示由光网络连接的SM和LLC集群。
& p0 ^% B% F5 w; H
/ t! N, u8 O5 k# C0 U* vGPUOpt对流式多处理器(SM)站点和最后级缓存(LLC)站点使用不同的预测机制:1 ?) B; E* G6 E2 S
1. SM站点使用基于以下因素的受限预测器(Restr_Pred):7 o6 H( m! p# F, T5 N
接收的消息发送的消息等待时间
3 [* [( y' s7 r+ r/ S; q. q# S1 X8 Q: d$ E
2. LLC站点使用考虑以下因素的灵活预测器(Flex_Pred):
; _. P+ u- Y" Z5 _/ l! R接收的消息发送的消息待处理事件
) \0 S7 v, X% q. C. I; x$ w: |
3 I4 ?$ H7 n: o- p* g! g激光控制器将这些预测结合起来,确定整体功率需求。$ ?! }2 ^, n- O' P |6 y
' |9 A* f# t/ c& n" I
4 |0 d w8 a3 V) _: B: ~$ `关键概念和趋势
2 |$ q" t( W, D5 L6 k6 F3 a8 p虽然具体方案各不相同,但一些共同主题和最佳实践浮现出来:9 O" N/ G" W; L* Z6 E& b. h8 E
" x: u' p8 v4 ~- G% V
1.将时间划分为固定时期进行预测和重新配置
* W) N' k) z; u6 p' C* Q2. 使用多个输入指标:" A! ~* \& ~ ], {5 i" L. t' P( }
网络利用率缓冲区占用率缓存未命中率指令类型待处理事件
/ @7 ?' H" O# g B3. 将当前指标与历史数据结合
9 D) m. r3 U; {4. 使用非线性预测函数(如神经网络)捕捉复杂关系2 r( F& t4 j2 Q2 s+ b7 u* F5 O
5. 对不同流量类型进行单独预测(如一致性与非一致性)
6 V% ]6 O1 d+ C4 f6 K' t h6. 分层设计以实现可扩展性0 E! O. G9 w& ^' E6 _9 Z, T% J
7. 尽可能重用未使用的光功率4 g1 `+ E) w* s I
8. 为特定架构经验性地调整预测参数
( x3 l- H2 `3 Y( m# P% ^# W6 T# I$ B0 _4 b" ^2 k, ^
图4说明了有效激光调制可能带来的功率节省:
) x! F2 P% C) Z" k/ ~' x# ^& v- S7 r$ V6 }4 @
om02xkr3dhc64034879113.png
3 f0 V4 i$ F$ D图4:ideal、Probe和ColdBus方案在各种基准测试中的相对激光功耗。- \% N: g) n( i" M; y2 N0 t( R, P- \
1 {0 j" {: Y' w* D3 ?$ R/ Y; h6 t
m5 A8 |) i# k) S' R$ |/ E未来方向
' J% \7 j3 j% C2 F! P! f随着光学NoC从研究转向实际实施,可以期待这些技术的进一步完善。方向包括:
. Q0 s& R. ?+ c/ x" e7 V3 E用于更准确预测的机器学习技术与应用层知识的集成在运行时调整参数的自适应方案考虑电气和光网络的整体优化针对新兴工作负载(如AI加速)的专门化
, n# }& d; a. C1 j* g, o; L( w7 S% e6 m4 m/ o( G) p
8 |# A0 W4 s) B! K8 V( N结论" w% R5 t8 r' {2 X7 u
有效的激光调制对实现光学片上网络的潜在优势非常重要。通过准确预测网络活动并相应调整激光功率,可以在保持性能的同时最小化静态功耗。随着处理器架构继续发展,激光调制方案需要适应新的设计约束和流量模式。该领域的持续研究有望为未来计算系统解锁新的能效水平。
! t! R& T- m' Y
1 a. E R) o6 I9 L! J# ? w3 i
( X) c ]% W1 ]: B( `& [参考文献9 i8 d' j3 I9 U, I1 E- J
[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.
# ]. D5 K. o- }6 ]& v6 x
3 w3 W: e' O0 l% i: }; y- END -
- }3 H+ e0 ], ?2 z* H/ l
) q2 j I; |, |# T! [0 e软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。2 n( i$ d+ L I
点击左下角"阅读原文"马上申请1 [( w9 i8 b6 s0 _$ L0 n) U
/ Z0 J9 b! |" w1 f欢迎转载5 L. O: d! b0 t7 ?0 a* f! F2 C
/ S4 a0 k* i: k% K0 u0 \5 J$ C转载请注明出处,请勿修改内容和删除作者信息!
* x+ N. u) ?+ f7 j, j! }* i) D7 X& e) P
' ^1 b, H7 p1 {) T; F8 {6 o/ w0 n: I: Q! k4 z2 N! Q+ J. D" t
tlesfwadvw464034879213.gif
5 G4 A7 M) Y" C) P# v$ g1 M/ |7 K( }% y7 K4 i# U# C
关注我们
8 T3 i9 t! a' Y2 H) A2 W# \% a, C0 A2 ^8 N3 b
8 Y6 v' K0 I) E9 L# b( m$ S
0rzxntnecf364034879313.png
M! Y. d& ~* \* g8 Y
|
9 h9 q! _; s& p; N% y5 t" y
wklhaednp3g64034879413.png
t( W9 C _) b" ?& l9 n
| 9 f# O% W- r+ l8 d) |1 y& q
v05awecejyj64034879513.png
8 L5 @4 B# J% r. a# f | 5 ` d8 R$ {2 j, }# Z1 d
" I2 L% d& I# o4 B. u+ M9 X
X" k5 S0 O7 y3 t( Y4 \/ \* w
, H5 ?2 `8 K5 R3 g0 E( X关于我们:, Y3 P. m0 b: v2 _8 Z4 t; S
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。4 V1 f* e6 R3 d2 K2 o" l7 W6 C
2 W, z( Q7 {4 w1 Q% o! H: V) ]# Ghttp://www.latitudeda.com/6 l. H8 e! J6 @5 q0 n
(点击上方名片关注我们,发现更多精彩内容) |
|