引言随着深度神经网络(DNNs)在各种应用中变得越来越复杂和普遍,对高效硬件加速器的需求比以往任何时候都更为迫切。在后摩尔定律时代,传统电子加速器面临着基本限制,在带宽和能效方面造成瓶颈。硅基光电子技术应运而生,可为深度学习加速提供节能、超高带宽和低延迟的解决方案。
' I5 K% w5 P, E# j: c% n1 v8 K1 e* ?本文介绍CrossLight,新型硅基光电子神经网络加速器,通过跨层设计方法解决光计算中的关键挑战。将探讨光计算的基础知识、CrossLight的架构以及与最先进加速器的性能比较。) g/ I Z( p; C0 `+ q9 C
5 j8 d5 k% e# Y0 p" n& `光计算基础
! V. D( s; A+ Q# H0 n7 W" J( o' X在深入了解CrossLight之前,让我们先了解深度学习光计算的基础知识。光加速器通常使用广播和权重(B&W)配置来执行矩阵-矢量乘法,这对DNN中的卷积(CONV)和全连接(FC)层都是必不可少的。, f8 ^3 o: \. t4 x+ D
4pv52a3kqku6407745425.png
3 n: t4 _3 N0 Z3 l2 R+ M$ \图1显示了基于非相干广播和权重(B&W)的光电子神经元配置。
& u3 f6 d, H7 ^" Z. v) D在此配置中,输入值通过调制器印刻在不同波长的光上。然后,这些波长被合并并分成多个分支,每个分支由微环谐振器(MRs)加权。加权信号通过光电探测器求和,完成矩阵-矢量乘法运算。7 i* d! }0 ?, B
这种设置中的关键组件是微环谐振器(MR)。MR可以调谐以改变特定波长的能量,有效地在光域中实现乘法运算。4 J/ I' j. {) l3 Y$ O* m' o
CrossLight架构! u4 d% b6 e6 w- ]+ `+ i2 E* }. F& T
CrossLight采用跨层方法优化光加速,解决设备、线路和架构层面的挑战。; j; j& N+ B1 q5 b" y5 N
hdv40znuf1f6407745525.png
7 f: N' n+ P$ {. V1 g4 I; w' f图2展示了CrossLight非相干硅基光电子神经网络加速器的高级概述。; f. F w/ G2 p8 m) x
设备级优化在设备级别,CrossLight引入了优化的MR设计,对制造工艺变化(FPVs)更具弹性。通过全面的设计空间探索,研究人员发现,使用400纳米的输入波导宽度和800纳米的环形波导宽度可以将由FPV引起的不期望的谐振波长偏移减少70%。
3 F9 F6 ~) z2 T2 Q- X3 I4 ]" e线路级优化为解决紧密排列的MR之间的热串扰问题,CrossLight采用了结合热光(TO)和电光(EO)调谐的混合调谐方法。与传统的仅TO调谐方法相比,这种方法可以实现更快的操作速度和更低的功耗。
( ?$ J& w- y3 b" c2 J" M+ O此外,CrossLight采用了称为热特征分解(TED)的方法,可以集体调谐MR组中的所有MR,有效地以较低的功耗消除热串扰效应。
0 C2 n i0 }4 V
1q2ag15zr5n6407745625.png
1 V* w! A( ~9 u% `1 h0 f! O
图3显示了10个制造的MR块中相邻MR对之间距离可变时的相位串扰比和调谐功耗。% X' n; q( D3 u: i
架构级优化CrossLight为CONV和FC层加速引入了单独的矢量点积(VDP)单元,认识到这些层的不同计算需求。这种分离允许更高效地处理这两种类型的层。; ?6 B1 B) e, V& r2 q0 c
该架构还在VDP单元内实现了波长重用策略,减少了所需的激光器总数,从而降低了功耗。通过将较大的矢量分解为较小的矢量,并在VDP单元内的多个分支上执行并行计算,CrossLight在并行性和激光器功率需求之间实现了平衡。
+ p4 O" t! f1 T( g性能分析为评估CrossLight的性能,研究人员使用四个不同复杂度的DNN模型进行了广泛的模拟。
& U8 }: \( M) i E m分辨率分析CrossLight的一个主要优势是能够实现高分辨率计算。虽然一些光加速器限制在2-4位分辨率,但CrossLight可以为其MR组实现高达16位的分辨率。
. p- u+ C# A3 K
zk1xbolbcjt6407745726.png
; Q- S5 L( m! r) Z( U! Y- l
图4演示了四个DNN模型在权重和激活的量化(分辨率)范围从1位到16位时的推理准确性。8 P0 L R- s/ ~" U
这种高分辨率对于维持模型准确性很重要,特别是对于在具有挑战性的数据集上训练的复杂模型。
' c D5 i" e% \/ l. X! A. y1 b3 Y敏感性分析研究人员进行了敏感性分析,以确定CrossLight的最佳配置,改变CONV和FC层加速器的VDP单元的数量和复杂度。
$ I. m$ q+ ~ ]4 w- f( K7 `
hgvq4apes4o6407745826.png
2 m0 L, y7 u4 L- {9 n图5是散点图,显示了各种CrossLight配置的平均每秒帧数(FPS)与平均每比特能耗(EPB)与面积的关系。
& q- ^6 L3 v# [1 W最佳配置是基于最高的FPS/EPB比率选择的,平衡了性能和能效。
# k& j: C( R- F) @与最先进加速器的比较CrossLight与两个著名的光加速器(DEAP-CNN和Holylight)以及几个电子加速器(包括GPU和CPU)进行了比较。
4 d$ l4 g, S1 ]4 A& }' ?( R, p+ X
ds1gwxks5up6407745926.png
2 D. R( t. h# T$ M* I图6比较了CrossLight各变体与光电子和电子加速器平台的功耗。
1 Y) l' B* |3 o7 Q0 r7 {3 i' a结果显示,CrossLight,特别是在优化配置(Cross_opt_TED)中,实现了比其他光加速器和传统CPU/GPU平台更低的功耗,尽管功耗仍高于一些专用电子加速器。5 f! T( t5 y* V8 U# K
* ]+ a0 [0 F1 c! T
vk1wwklqxez6407746026.png
0 A1 Y' }: c' ]# a图7比较了光电子DNN加速器的每比特能耗(EPB)值。1 z7 o; t9 u9 k A& b0 s
在能效方面,CrossLight显著优于其他光加速器,平均比DEAP-CNN和Holylight分别低1544倍和9.5倍的EPB。
: h/ C8 a: z, F* u8 V4 G8 hCrossLight的性能优势源于全面考虑了光系统中的各种损耗和串扰,以及在设备、线路和架构层面采用新方法来减轻影响。) J/ ?+ V& x5 h
结论CrossLight展示了光电子神经网络加速器中跨层优化的潜力。通过解决硬件栈多个层面的挑战,与最先进的光电子和电子加速器相比,在能效和每瓦性能方面实现了显著改进。& a" ~: p. M' ^
随着硅基光电子制造工艺的不断成熟,我们可以期待设备调谐成本、损耗和激光器功率开销进一步降低。这一趋势可能会加强光域加速器在深度学习推理任务中的地位。
( j1 d% Z! K6 x' |6 uCrossLight的成功突出了在设计下一代硬件加速器时采用全面、跨层方法的重要性。随着我们推动人工智能和机器学习的边界,这种创新架构将在实现更高效和强大的计算系统方面发挥关键作用。6 b' S: I. |( \0 d
参考文献[1]M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.
! \0 e9 [- h2 @' ?: T8 g+ T A- END -
7 E! @' h. o9 _. I/ _# F5 b
M+ e9 Y; a+ l8 t# Y软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
; [2 V; @0 n; I* s: K点击左下角"阅读原文"马上申请9 q0 q: w8 N3 b+ g. F$ ?; J& J8 i
* T3 j! G& U2 w I
欢迎转载
% W5 c* M2 S5 Y2 a0 k) X8 e/ v0 b; i# H& I% g+ m; e5 x5 b2 G
转载请注明出处,请勿修改内容和删除作者信息!
; S- r6 w* X) J. d* v; \. x* a# J' ~" a: L7 \4 t
4 E/ u8 Y5 U6 i! A# }& o4 S& o
4 L* c& o2 @, }% b6 |" ^
2nxeukl4gmg6407746126.gif
8 r- e) V: ^+ [" C- g q% o x
1 k. z3 |/ z( K1 K1 Y7 j, i关注我们
# B; v4 J6 R1 C3 K
- `3 J' L8 c8 N
! e! y; B+ u3 q8 {( {
urjgobttdj46407746226.png
& z/ B) j3 B, F G& o' V- B
|
P: Z% f2 |, }8 x4 }3 N
p1gldr1aa3m6407746326.png
1 Z, U9 R, `! z# ^) q2 B: c7 y+ i+ [ |
) W+ _0 Z- c( }$ @, C2 Z
k5zvs42z5od6407746426.png
- N f. d2 j. d( T M! H' u | - S) [* f: \% }+ n4 \/ g) L2 C
8 B0 i0 G3 Q5 k0 e! |) o& U* S
- x8 k0 |" W, }/ b1 I7 b% ?3 n9 W
" d9 F) g9 c! B. G0 Q+ F
关于我们:' i4 ~( R, B) u4 u# x
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。8 \/ j2 R. n* |; u% X$ S' Y4 j. o
! z: \% H& c* P7 v8 mhttp://www.latitudeda.com/6 b/ o* {% l% m) h
(点击上方名片关注我们,发现更多精彩内容) |