引言随着深度神经网络(DNNs)在各种应用中变得越来越复杂和普遍,对高效硬件加速器的需求比以往任何时候都更为迫切。在后摩尔定律时代,传统电子加速器面临着基本限制,在带宽和能效方面造成瓶颈。硅基光电子技术应运而生,可为深度学习加速提供节能、超高带宽和低延迟的解决方案。
' S4 T, N X- q6 M, N7 N4 T! c本文介绍CrossLight,新型硅基光电子神经网络加速器,通过跨层设计方法解决光计算中的关键挑战。将探讨光计算的基础知识、CrossLight的架构以及与最先进加速器的性能比较。
8 O$ I/ o% ~6 C' f5 ~7 n
# Z% d2 x$ O& T5 Y( R& `3 v6 y- }光计算基础
6 z6 W) K% D2 R: |- f在深入了解CrossLight之前,让我们先了解深度学习光计算的基础知识。光加速器通常使用广播和权重(B&W)配置来执行矩阵-矢量乘法,这对DNN中的卷积(CONV)和全连接(FC)层都是必不可少的。
/ G. n* D# B Q( [7 z: g8 E- Q( X
vndjbb4wr4k6405695118.png
* E" }# C+ S! a1 k6 E! z) L图1显示了基于非相干广播和权重(B&W)的光电子神经元配置。& {$ }: q8 K7 N! Z" u$ r
在此配置中,输入值通过调制器印刻在不同波长的光上。然后,这些波长被合并并分成多个分支,每个分支由微环谐振器(MRs)加权。加权信号通过光电探测器求和,完成矩阵-矢量乘法运算。9 W Z$ H( k" o& g, j
这种设置中的关键组件是微环谐振器(MR)。MR可以调谐以改变特定波长的能量,有效地在光域中实现乘法运算。0 |9 K: Y" i, F8 d. R
CrossLight架构
1 X' \3 Z4 [$ K- L9 S# ~7 R6 B( u3 ZCrossLight采用跨层方法优化光加速,解决设备、线路和架构层面的挑战。3 {' R* K* C( Z
rcw4xofdo3b6405695218.png
8 b: D2 Q+ \1 Y- U# t
图2展示了CrossLight非相干硅基光电子神经网络加速器的高级概述。: ~+ h+ _$ ~0 g5 O" j! z
设备级优化在设备级别,CrossLight引入了优化的MR设计,对制造工艺变化(FPVs)更具弹性。通过全面的设计空间探索,研究人员发现,使用400纳米的输入波导宽度和800纳米的环形波导宽度可以将由FPV引起的不期望的谐振波长偏移减少70%。
\$ R- E7 h- O8 E线路级优化为解决紧密排列的MR之间的热串扰问题,CrossLight采用了结合热光(TO)和电光(EO)调谐的混合调谐方法。与传统的仅TO调谐方法相比,这种方法可以实现更快的操作速度和更低的功耗。+ g. k1 Z6 X' M g
此外,CrossLight采用了称为热特征分解(TED)的方法,可以集体调谐MR组中的所有MR,有效地以较低的功耗消除热串扰效应。5 z; w$ X) U1 o4 P: c
a1mbmdzge1b6405695318.png
7 v% o; z/ ^) \; j! m( s
图3显示了10个制造的MR块中相邻MR对之间距离可变时的相位串扰比和调谐功耗。' m/ A- X% `. K+ }4 X
架构级优化CrossLight为CONV和FC层加速引入了单独的矢量点积(VDP)单元,认识到这些层的不同计算需求。这种分离允许更高效地处理这两种类型的层。
% D2 e9 x& s" J: L( E% e该架构还在VDP单元内实现了波长重用策略,减少了所需的激光器总数,从而降低了功耗。通过将较大的矢量分解为较小的矢量,并在VDP单元内的多个分支上执行并行计算,CrossLight在并行性和激光器功率需求之间实现了平衡。
$ L. @( {: _+ H$ e" x性能分析为评估CrossLight的性能,研究人员使用四个不同复杂度的DNN模型进行了广泛的模拟。* y* i# Y2 E! u- f
分辨率分析CrossLight的一个主要优势是能够实现高分辨率计算。虽然一些光加速器限制在2-4位分辨率,但CrossLight可以为其MR组实现高达16位的分辨率。, G1 V- J, t0 X2 ~' o4 R# I
ajq0l4vbmzq6405695418.png
# j" A; [) k, s# k图4演示了四个DNN模型在权重和激活的量化(分辨率)范围从1位到16位时的推理准确性。
8 _# f9 v6 v2 s0 N# v/ B7 k# \3 F这种高分辨率对于维持模型准确性很重要,特别是对于在具有挑战性的数据集上训练的复杂模型。
7 ?1 X7 Q$ m( D( K8 W( g: j/ d敏感性分析研究人员进行了敏感性分析,以确定CrossLight的最佳配置,改变CONV和FC层加速器的VDP单元的数量和复杂度。7 {) m4 |8 s: E
yipnw3evhz36405695518.png
. L- W0 K3 ^9 h3 T, B4 \% T
图5是散点图,显示了各种CrossLight配置的平均每秒帧数(FPS)与平均每比特能耗(EPB)与面积的关系。
0 R Z! @! J M4 T最佳配置是基于最高的FPS/EPB比率选择的,平衡了性能和能效。7 _5 f9 L) Z' ]3 K6 ^
与最先进加速器的比较CrossLight与两个著名的光加速器(DEAP-CNN和Holylight)以及几个电子加速器(包括GPU和CPU)进行了比较。
/ x7 q* E |5 [ {. l$ ]4 \% g
mtx404baupp6405695619.png
- d" e+ d: s; Q
图6比较了CrossLight各变体与光电子和电子加速器平台的功耗。8 [) Y8 ~$ j4 b/ B9 M
结果显示,CrossLight,特别是在优化配置(Cross_opt_TED)中,实现了比其他光加速器和传统CPU/GPU平台更低的功耗,尽管功耗仍高于一些专用电子加速器。8 @# H6 ~6 v+ O% c/ Z! z$ n, T
% a( C% T% R/ C
1gbbpwqp4hk6405695719.png
5 D( q) s& q0 O1 t W
图7比较了光电子DNN加速器的每比特能耗(EPB)值。
$ K9 D ]- b0 v1 M0 g1 S在能效方面,CrossLight显著优于其他光加速器,平均比DEAP-CNN和Holylight分别低1544倍和9.5倍的EPB。8 {3 y0 y+ N; P- Q
CrossLight的性能优势源于全面考虑了光系统中的各种损耗和串扰,以及在设备、线路和架构层面采用新方法来减轻影响。0 t. R8 V& h$ I
结论CrossLight展示了光电子神经网络加速器中跨层优化的潜力。通过解决硬件栈多个层面的挑战,与最先进的光电子和电子加速器相比,在能效和每瓦性能方面实现了显著改进。: j, @) c% v# f7 [" }4 q
随着硅基光电子制造工艺的不断成熟,我们可以期待设备调谐成本、损耗和激光器功率开销进一步降低。这一趋势可能会加强光域加速器在深度学习推理任务中的地位。% `1 v: F' b. o5 Z( j" b0 a
CrossLight的成功突出了在设计下一代硬件加速器时采用全面、跨层方法的重要性。随着我们推动人工智能和机器学习的边界,这种创新架构将在实现更高效和强大的计算系统方面发挥关键作用。( ^5 [* [1 A' e
参考文献[1]M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.1 X) ?+ @3 ~" j. ^
- END -
0 s8 {/ k) k8 P* G6 X0 e
& J! Y8 C4 v7 w: m/ F2 G软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
5 C2 y$ t) O0 ]3 O3 [6 l点击左下角"阅读原文"马上申请
& t$ p; Z) |7 z/ \" F- [6 w0 i* u% m6 S8 T+ w
欢迎转载
; W0 f2 x: H B( M% H7 ? b. l6 N/ m" M" V# p1 a
转载请注明出处,请勿修改内容和删除作者信息!
" ]3 j; v& y5 ^% z8 r5 f
$ T8 J/ v1 ?6 W5 ~6 W6 t! x5 P/ `6 V6 e, J
2 ^7 l0 Y/ L4 X( }+ h# H& s1 A
i04sdcaxjtp6405695819.gif
% y4 y8 H$ r! A9 K. U- Z
- D- L; G( k5 G" B4 F3 \关注我们/ H* ~2 T4 J2 x9 u ], }" T+ v
5 p Z; ^( n5 W2 H
4 l" f/ v; l" y9 l- F
fhdji2uy4fr6405695919.png
3 n O$ Q% e$ m) n) S5 _) b
| 7 a; M+ h$ v2 _; E0 g5 ]5 J
toe11bamh4p6405696019.png
; A @9 l. m* ]1 E
| m7 R$ O7 U, n- e4 ?2 G
wyfszhdjarq6405696119.png
3 R7 p7 v+ w* Q; |* {
| ( @0 \% Q9 _4 |7 \+ L
. Y4 g4 {. k" }1 E, [# d
9 X# v$ @0 @$ @ b# O& h% \) ^/ N7 W) V
关于我们:( @- c) W. S' R% d" V+ _
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。% {) E+ ]! K0 P& \# Y" Y! E& B
$ [% W) h. h$ r# u' T6 {
http://www.latitudeda.com/
; D0 _3 j7 v$ A* c7 t8 k5 T(点击上方名片关注我们,发现更多精彩内容) |