引言
+ {$ I6 e0 ]% @$ x2 X随着机器学习(ML)的快速发展,计算能力需求不断增长。传统电互连技术因其尺寸和功耗限制,难以满足现代ML计算需求。Lightmatter以及Cornell大学最新发表基于波分复用(WDM)的光互连技术为多加速器服务器内部的加速器间通信提供了高效解决方案[1]。( |: Y" {4 p! y0 B
ybbu5xdy0r56401823730.png
- Z6 q8 E [& x
kxiv1ga2pb56401823830.png
W$ R4 n; |& S
图1展示了服务器级光互连架构,包括:(a) 带有收发器组的光线路开关网络,(b) 物理实现,以及(c) 系统的多层结构。
9 v6 V9 }0 ]4 H6 O# S" V4 m& _$ G" ~
( R* d7 a) y; ^1 ?/ P+ ]1* Z' K4 y+ N, i' [6 u( E6 W
LIGHTPATH架构详解 F) x( c1 U6 T5 T" _. B5 h. x
LIGHTPATH是一种可切换的服务器级光互连架构,采用混合型互补金属氧化物半导体(CMOS)光电子工艺实现。该架构最多包含32个tile,每个tile都可以容纳3D堆叠的计算芯片(如GPU或CPU)。每个tile配备多个发射和接收(TRX)组,采用先进技术实现高效数据传输。
0 P. K+ X5 [8 C8 g) w/ V
: Q! w; m' G" Z+ k发射器组件使用微环谐振器(MRRs)进行光调制,接收器负责波长解复用,并通过光电探测器将调制波长转换回电子数据。数据随后通过串行器/解串器(SerDes)模块处理。每个LIGHTPATH tile支持最多16个波分复用激光器,并集成了1X3度的马赫-曾德尔干涉仪(MZI)光开关,实现加速器间可编程线路切换。9 w1 O- i% R: D) W* ?9 t& I
sikihrvaitp6401823930.png
; S; U+ }$ j8 }) c+ d. m4 ~图2展示了(a)多租户环境中的计算资源分配示例,以及(b)每个租户分配中ALLREDUCE线路设置的快照。/ ^3 P4 t* Q! g3 m5 W9 i; e
, Y. Y3 m9 m+ `6 j& ]% O9 a2
# E1 z6 q8 M8 Q8 }8 q0 yLUMORPH:资源管理创新
/ A/ K% x1 c6 v+ r: }( N! vLUMORPH作为一种光学可重构数据中心机架系统,通过将光开关功能引入服务器内部各个GPU,解决了多租户ML集群中的资源碎片化问题。该架构使用光开关芯片间光互连技术连接多GPU服务器内部的GPU,LIGHTPATH支持的服务器通过直连光纤相互连接。 b& |0 h- G$ @8 }/ L* u! l
5 d1 v, n* Q: ]3 |/ u与传统架构相比,LUMORPH在资源分配方面具有显著优势。传统架构只能提供固定大小的资源分配,而LUMORPH支持灵活的资源分配,在保证每个租户最优通信路径的同时,提高了数据中心机架的使用效率。
/ `# Y" J y; |: d$ V! N8 Q8 a) ?
tzdgtdhjmdh6401824030.png
5 V0 h* o6 {9 P2 t( B2 N
图3显示了使用LUMORPH的8个GPU配置示例,该配置等效于SiPAC(2,3),展示了系统在拓扑配置上的灵活性。
& p3 h+ I- L" X. S7 {; O" K# _' K& N
36 [9 L/ s3 E9 v6 B
性能与实现
& X2 i& X6 T' a3 P2 G) \ H+ {, pLUMORPH经过多项实验验证。使用Xilinx VCU128 FPGA评估板进行的传输回环测试显示,在不同数据速率下均达到极低的误码率:10 Gbps时为6.96X10^-13,15 Gbps时为6.62X10^-13,20 Gbps时为5.60X10^-14。系统的MZI光开关重构时间仅需3.7微秒,能够快速建立芯片对之间的按需光线路。
* v, m2 Z, D, l3 r8 O
nt03qmq430o6401824130.png
/ ^, a4 q8 T7 C3 h2 N* u# J图4展示了(a) BERT吞吐量性能和(b)规约算法性能比较,显示了LUMORPH在各种配置下的优越性能。
% `/ ?# Q6 v2 f$ z$ ^$ k
. a; {: X; {% d+ S! z! N4* v% n- P7 @0 r0 t
应用价值! I0 {0 N/ G4 [" P4 ^+ w; k. c' T
LUMORPH在ML训练场景中表现突出。使用FlexFlow模拟器训练BERT语言模型时,相比传统Ring算法性能提升达1.7倍。这种改进在涉及多个小缓冲区ALLREDUCE调用的情况下尤为明显,此时通信成本主要受延迟而非带宽影响。
9 g/ e5 x5 Q5 A& |0 @" o# \% V( L# [" x1 ?
LUMORPH架构使GPU间通信更加高效,突破了传统集体算法在固定网络架构下的限制。结合多租户环境下的高效处理能力,为下一代ML计算基础设施提供了有效解决方案。6 h( A8 l& K' E
% {/ W; P4 N, D
5
, Z4 B* y1 O1 H- [- y结论" N* X5 o: v s1 p
芯片间光互连技术在多加速器服务器中的应用代表了ML计算架构的重要进展。LUMORPH在资源管理和通信优化方面的创新表明,光互连解决方案的优势远超出能效和带宽的提升。随着ML技术持续发展对计算资源需求增加,基于光电子技术的架构将在AI基础设施中发挥更大作用。 V1 V) W" n4 `- Y* v
3 n- f# t7 G1 i8 p" }" c% t参考文献4 O6 N7 @2 W" S
[1] V. Kumar, A. Devraj, D. Bunandar, and R. Singh, "Chip-to-chip photonic connectivity in multi-accelerator servers for ML," arXiv:2501.18169v1 [cs.NI], Jan. 2025.
' o! G7 C! ]7 Z" f3 }( F/ U6 fEND
4 O9 R8 y g( A2 }, E
1 N+ o, N& V/ H( \- E9 k5 n0 }软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
+ Q. Y2 r4 }+ |点击左下角"阅读原文"马上申请
4 x4 _; g) x" b: t" a# v( C' e: T. Z( v+ u/ w
欢迎转载
' E6 i% \1 ~ e3 C; A+ ] V$ \# ~; m$ s0 h! e: G/ i0 @
转载请注明出处,请勿修改内容和删除作者信息!
, X$ T# n1 d$ H) c/ a
- ]. [$ Q3 {# {- h8 F& j+ v, ^! d6 E8 }) d+ V7 ]9 }
' @2 g8 F H7 G& Y2 y/ [
qi4q2j0ff2g6401824230.gif
. Q! `; t; v$ F5 u9 T' B/ K
" Y) h# q- H2 t, @关注我们 H" v- X$ n- E4 [ a X9 q. a# z
8 z. N" n7 a& i' T' _5 n
, }( U( Q. @! e# a
ex50nfoyfkv6401824330.png
. {# n+ u5 i8 e3 c2 j) X3 M | % W4 x B- X" q5 {/ m: M
a4t3qpyea206401824430.png
0 l/ |$ n# v; n7 x% `/ @, G
|
2 y4 t+ [" B9 s0 {; V: E' V$ p U- m
umkqa21dhso6401824530.png
1 b2 j& |9 y: w2 n8 Y |
4 J% G6 e* N* h( s E. \3 }4 e% E2 e7 U
1 R" Y0 ?+ ]+ _8 {3 Y% @: h+ F5 y2 w$ M5 Q8 `0 P
7 _$ C7 S4 q# q( l7 b! ^
关于我们:
b1 c8 z1 f6 s- p% k深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。& ?, ?5 u5 n, c% x6 j
0 Y" r$ u& g: E+ w2 V6 n3 m" N
http://www.latitudeda.com/1 b/ H R/ h% L+ n4 O
(点击上方名片关注我们,发现更多精彩内容) |