|
引言随着深度神经网络(DNNs)在各种应用中变得越来越复杂和普遍,对高效硬件加速器的需求比以往任何时候都更为迫切。在后摩尔定律时代,传统电子加速器面临着基本限制,在带宽和能效方面造成瓶颈。硅基光电子技术应运而生,可为深度学习加速提供节能、超高带宽和低延迟的解决方案。
, C; }+ C% S- Y, E/ H I6 M本文介绍CrossLight,新型硅基光电子神经网络加速器,通过跨层设计方法解决光计算中的关键挑战。将探讨光计算的基础知识、CrossLight的架构以及与最先进加速器的性能比较。
' T; \5 f/ _# S) A( F
* V& k4 ^2 ~; J x5 W" ]光计算基础
* m, q$ H) d1 _在深入了解CrossLight之前,让我们先了解深度学习光计算的基础知识。光加速器通常使用广播和权重(B&W)配置来执行矩阵-矢量乘法,这对DNN中的卷积(CONV)和全连接(FC)层都是必不可少的。4 O& d' a6 s* j
u5t5b2alz3y6401283547.png
[2 h- e) k+ ~( D" g1 {6 T$ G( j图1显示了基于非相干广播和权重(B&W)的光电子神经元配置。5 e; F! c0 a7 k4 f3 s
在此配置中,输入值通过调制器印刻在不同波长的光上。然后,这些波长被合并并分成多个分支,每个分支由微环谐振器(MRs)加权。加权信号通过光电探测器求和,完成矩阵-矢量乘法运算。
6 D* b! c3 y, e这种设置中的关键组件是微环谐振器(MR)。MR可以调谐以改变特定波长的能量,有效地在光域中实现乘法运算。
# V `1 o. s% E4 bCrossLight架构
8 [% P* X/ b( e( jCrossLight采用跨层方法优化光加速,解决设备、线路和架构层面的挑战。
3 D, b8 ], P6 i8 b& X, [+ B
r440eh0t2ow6401283647.png
# c$ [/ q( |! |图2展示了CrossLight非相干硅基光电子神经网络加速器的高级概述。
6 W. X8 s& i. [/ J设备级优化在设备级别,CrossLight引入了优化的MR设计,对制造工艺变化(FPVs)更具弹性。通过全面的设计空间探索,研究人员发现,使用400纳米的输入波导宽度和800纳米的环形波导宽度可以将由FPV引起的不期望的谐振波长偏移减少70%。& J/ \) m3 d: \
线路级优化为解决紧密排列的MR之间的热串扰问题,CrossLight采用了结合热光(TO)和电光(EO)调谐的混合调谐方法。与传统的仅TO调谐方法相比,这种方法可以实现更快的操作速度和更低的功耗。
+ L' ?4 ~/ H1 d+ D* |8 r此外,CrossLight采用了称为热特征分解(TED)的方法,可以集体调谐MR组中的所有MR,有效地以较低的功耗消除热串扰效应。
% ]8 o: c# X! n# M. x6 g; I, }
gosr1kbepbz6401283747.png
6 n2 Q, }8 w) Z% Y. j9 E8 h, a图3显示了10个制造的MR块中相邻MR对之间距离可变时的相位串扰比和调谐功耗。' k J9 r9 h) v4 W, c
架构级优化CrossLight为CONV和FC层加速引入了单独的矢量点积(VDP)单元,认识到这些层的不同计算需求。这种分离允许更高效地处理这两种类型的层。" X& L0 e; f8 j# _3 M( V! E
该架构还在VDP单元内实现了波长重用策略,减少了所需的激光器总数,从而降低了功耗。通过将较大的矢量分解为较小的矢量,并在VDP单元内的多个分支上执行并行计算,CrossLight在并行性和激光器功率需求之间实现了平衡。
; s, f# I+ T& L: k% R性能分析为评估CrossLight的性能,研究人员使用四个不同复杂度的DNN模型进行了广泛的模拟。. I$ Q, w, E. j" }' f" j0 f# T
分辨率分析CrossLight的一个主要优势是能够实现高分辨率计算。虽然一些光加速器限制在2-4位分辨率,但CrossLight可以为其MR组实现高达16位的分辨率。/ i; P6 V+ p4 j/ `, m* [( m. t
wcmaphexdg16401283847.png
9 T( T& G% @8 w# x图4演示了四个DNN模型在权重和激活的量化(分辨率)范围从1位到16位时的推理准确性。9 z) x7 ?7 _6 }; n; d* o
这种高分辨率对于维持模型准确性很重要,特别是对于在具有挑战性的数据集上训练的复杂模型。
4 ?: S& d% k1 w& J3 y0 I) ~敏感性分析研究人员进行了敏感性分析,以确定CrossLight的最佳配置,改变CONV和FC层加速器的VDP单元的数量和复杂度。
`6 ^" @" @, m. v! k
povttnqyf1r6401283947.png
6 X# w: I: c* f9 h
图5是散点图,显示了各种CrossLight配置的平均每秒帧数(FPS)与平均每比特能耗(EPB)与面积的关系。5 g. o0 W7 W( c$ ~
最佳配置是基于最高的FPS/EPB比率选择的,平衡了性能和能效。
/ Y' v; Y3 ?, }+ h与最先进加速器的比较CrossLight与两个著名的光加速器(DEAP-CNN和Holylight)以及几个电子加速器(包括GPU和CPU)进行了比较。
, q, |' h/ V; }+ n; S8 m
o1mo3m44ri06401284047.png
" a! ?9 J* l# Z4 B
图6比较了CrossLight各变体与光电子和电子加速器平台的功耗。+ M* r, H, c- R8 _1 q$ e' g
结果显示,CrossLight,特别是在优化配置(Cross_opt_TED)中,实现了比其他光加速器和传统CPU/GPU平台更低的功耗,尽管功耗仍高于一些专用电子加速器。
) U: B( C( h& o) C' {/ \; x8 p' E0 Z7 H
s5pbjcfws456401284147.png
2 B; G4 H3 a0 `9 a图7比较了光电子DNN加速器的每比特能耗(EPB)值。
4 l' D7 G0 I) v9 U在能效方面,CrossLight显著优于其他光加速器,平均比DEAP-CNN和Holylight分别低1544倍和9.5倍的EPB。
8 p' h N; ?6 b+ v3 RCrossLight的性能优势源于全面考虑了光系统中的各种损耗和串扰,以及在设备、线路和架构层面采用新方法来减轻影响。
( n+ L* \& x$ M9 I/ H% S4 t8 d结论CrossLight展示了光电子神经网络加速器中跨层优化的潜力。通过解决硬件栈多个层面的挑战,与最先进的光电子和电子加速器相比,在能效和每瓦性能方面实现了显著改进。
$ G5 _7 S6 f4 Q$ T随着硅基光电子制造工艺的不断成熟,我们可以期待设备调谐成本、损耗和激光器功率开销进一步降低。这一趋势可能会加强光域加速器在深度学习推理任务中的地位。
/ m' J6 B8 O: X3 m% k% BCrossLight的成功突出了在设计下一代硬件加速器时采用全面、跨层方法的重要性。随着我们推动人工智能和机器学习的边界,这种创新架构将在实现更高效和强大的计算系统方面发挥关键作用。
( `# h7 h; X$ S' d: @参考文献[1]M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.
. ~; C7 ^3 [2 M' g7 @9 p" m8 p- END -$ L) z/ j8 |9 c" Q5 b
1 L7 |1 F+ ]" ^3 X0 r% n' q( V
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。* u4 `- i7 S5 H. ` e8 ^
点击左下角"阅读原文"马上申请8 I/ T8 N( ]' I$ s5 L' A! W2 [
) ]" ?1 @. ^) V5 q欢迎转载
* `1 E1 s, ^0 E4 R) s" b' k- B9 M
/ O* C8 x( [ H5 [转载请注明出处,请勿修改内容和删除作者信息!
6 X! u6 j' K' R( U# L5 [0 Q# n
- _1 k( f' O) g- l* C. ]. |* ]* |7 G
- B/ x2 C. V/ f
t4fh1omw4bj6401284247.gif
, M! F0 Y' b8 r7 j' F" o6 `9 `/ S
* i$ b9 t5 ]" S* Y5 m4 ]. i
关注我们
) C. e s# F9 m9 M2 c2 F! h% D$ j- d- M
: I; | s: _$ i$ O- U
4fflkvqbpgm6401284347.png
" a" O. K b/ } |
1 d" {3 B+ A" n: f" K
rnhb2dzvtyy6401284447.png
9 f; _" d# q; o+ ] |
/ C+ ~9 h* S: ]8 q3 T z4 w
2fgii0sxz4i6401284547.png
' E3 z4 J7 x6 m- D5 }8 I! H6 Z8 f: ^
|
I5 S1 K% H3 V% s }
* e: t- j% Y: F0 K+ x! ?3 U& \" n0 Z7 f: \
- Z. v0 M$ V+ G3 k* x
关于我们:
9 }- I& ?* J& `; {0 {* ^. k) K深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
0 M1 a7 x, f8 b: s* j$ X: k3 `/ C
http://www.latitudeda.com/; p" D; P. F2 g, Q: ^" H+ T. M8 i
(点击上方名片关注我们,发现更多精彩内容) |
|