引言1 I1 [8 I, H0 N0 o
随着深度学习推荐模型(DLRMs)和大型语言模型(LLMs)在规模和复杂性上的快速增长,Meta公司开发了新一代Meta训练和推理加速器(MTIA),这是一种尖端解决方案,旨在提高各种AI模型和服务的性能、效率和开发人员生产力。( q! Y: [* v5 _
7 o& Z* f7 [$ w
q5gu0vorwgq64055295326.png
+ A) O7 r2 K4 S+ V2 [图1:展示了推理模型复杂度(GFLOPS/样本)和模型大小随时间增长的趋势。9 I( M* k' W8 |' j' X
U. {! m* \$ Y# C' D
开发新一代MTIA的动机源于几个关键因素。首先,DLRM和GenAI模型在规模和计算需求上的爆炸性增长,创造了对更强大、更高效硬件的需求。其次,将GPU部署于这些工作负载中暴露出了有效性能、资源密集度和容量限制等方面的挑战。为应对这些挑战,Meta着手开发一种加速器,能够显著提高总体拥有成本(TCO)的性能比和每瓦性能比,同时高效处理Meta多项服务中的各种模型。6 a2 T X" F2 T5 Z. X, b
) t5 p2 f- z4 J% _& x+ q
新一代MTIA的主要特性
0 Q* D) D" U& @" ]1. PyTorch Eager模式支持:加速器在作业启动和替换时间方面表现出色,新硬件作业启动时间不到1微秒,完成作业替换时间不到0.5微秒。这一特性提高了系统的整体响应性和吞吐量。
5 n' n7 f6 Y, {7 H! I6 M( o2 a1 K# s9 K7 H
2. 整数动态量化:基于硬件的张量量化提供了与FP32(32位浮点)相当的精度,同时减少了内存和计算需求。这种技术实现了超过99.95%的精度,与基准FP32结果相比。
+ `$ f9 ?3 t' s. N L( i% M$ H+ f
3. Gen-O-Gen性能:MTIA显著提高了GEMM(通用矩阵乘法)运算,在BF16精度下达到177 TFLOPS - 提升了3.5倍。还支持稀疏矩阵运算,TFLOPS提高了2倍,并实现了ANS(非对称数值系统)权重解压缩,提供50%的压缩率和20%更好的内存到计算张量传输性能。
% i i | i; Q3 ?$ l O8 Z1 b5 a7 J- f! ~- k% B3 j0 F
4. 表批嵌入(TBE)优化:下载和预取嵌入索引的硬件优化使运行时间比上一代快2-3倍。3 g1 X: p5 I& X+ F! h
' z; `) d$ h9 }' b' l
uo3d4luuxvu64055295427.png
- t0 u0 D# X% f; l+ M' n2 m图2:展示了新一代MTIA的整体架构,包括处理元素、内存子系统和接口。# g, _% ]- n9 Y% l
`& f U- a$ k; n
新一代MTIA基于台积电5nm技术构建,运行频率为1.35 GHz。芯片包含23.5亿个门和1.03亿个触发器,尺寸为25.6 x 16.4 mm(421 mm2)。封装尺寸为50mm x 40mm,TDP为90瓦。加速器在GEMM性能方面表现出色:INT8为354 TOPS,FP16为177 TOPS,在稀疏模式下性能翻倍。配备128GB LPDDR5内存,提供204.8 GB/s的带宽。
) C; T" ~/ Q% y" t( {" F1 M2 F, }% q
架构由几个关键组件组成:控制子系统和主机接口通过自定义网格网络连接的8x8处理元素网格分布在四侧的256MB片上SRAM,提供2.7 TB/s带宽四侧的16通道LPDDR5内存,支持高达128GB容量,带宽为204.8 GB/s" N# Y& V7 {$ N/ H
[/ol]3 p8 O& ]9 ~: g5 T& t9 T( Z4 [7 z' G. W
主机接口使用Gen5 x8 PCIe,提供32 GB/s的带宽。包括4MB PCIe描述符SRAM,用于快速描述符获取。控制核心子系统配备四核标量RISC-V处理器,8MB L2缓存和4MB上下文SRAM,用于高效的工作负载分配。
8 n0 s; k2 i$ ]# p N
1 C4 l3 r- a1 b& r. o
my022od4ly264055295527.png
; Z# D- s* J3 I* ?- X _; M' B图3:说明了处理元素的组成部分,包括双RISC-V核心和各种功能单元。
. x9 ` m6 i# x
& ~: p8 R* o3 }, X9 g2 c+ t处理元素(PE)是MTIA的核心。每个PE包含双RISC-V核心 - 一个标量核心和一个带向量扩展的核心。命令处理器(CP)协调PE内功能块的执行。固定功能单元加速各种操作,包括矩阵乘法、非线性函数、数据移动、动态量化、权重解压缩和急切模式处理。" `* S/ r4 O. i3 f0 s5 m9 B
f9 }4 h$ _/ }( Y每个PE内的点积引擎(DPE)提供2.77 TF/s(FP16)的性能,在稀疏模式下增加到5.54 TF/s。为匹配这一计算能力,MLU、RE和SE单元的数据路径已被拓宽。每个PE还包括384KB本地内存,以支持更大、更复杂的工作负载。
1 n- \1 L- Q8 y4 I* T$ b' J$ H
- K8 Z8 i. ?$ F0 n' e新一代MTIA的一个突出特点是整数动态量化能力。这种基于硬件的解决方案实时调整量化参数,在运行时收集每批次的最小/最大值,并支持按行量化。结果是全连接算子的通道级对称动态量化,与FP32基准结果相比,实现了超过99.95%的精度。
( m h& c1 ]. L% ?
/ V9 a( p% C* V) [为提高特定工作负载的性能,MTIA包含几项优化:Eager模式增强:多播写入组允许控制核心向选定PE广播Eager模式工作队列描述符,将PE作业启动时间减少了80%以上。硬件解压缩:专用解压缩引擎缓解了PCIe和网络拥塞,支持RFC1952(GUNZIP/GZIP)标准,包括静态和动态Huffman编码块。四个解压缩核心提供高达25 GB/s的解压缩率。PE权重解压缩:使用非对称数值系统(ANS)算法,MTIA实现了接近50%的压缩率,改善了片上内存占用,减少了PE到NoC的读取带宽。表批嵌入(TBE):此功能将来自单独嵌入批处理操作的表合并为单个表,与上一代相比,运行时间提高了2-3倍。
, a) H' S" _3 _: n% t, G3 q F[/ol]$ B( R) H3 ]# ?1 k; M
: a4 v: b9 ?! o# h U: _1 Y6 h
5fr2aqnpktn64055295627.png
, b6 s) D( r# P9 a4 C4 @* s图4:显示了加速器模块的物理布局,包括内存和PCIe接口规格。" ~* V# O! m3 x$ z! e1 _# \* O& ~2 @
- ~' P7 e( j1 ?1 W
新一代MTIA部署在PCIe CEM FHFL形态因子中,每个模块包含两个MTIA。每个模块支持高达256GB的LPDDR5内存,提供总计409.6 GB/s的内存带宽。板卡TDP为220W,使用64 GB/s Gen5 PCIe接口(2个Gen5 x8)。
1 c1 K) @3 u Y! p2 B) m/ Z8 ~6 D* y
在系统拓扑方面,单个机架包含72个MTIA ASIC,分布在三个机箱中,每个机箱容纳12个模块。这种配置自2024年上半年起已在数据中心部署,为Meta的AI工作负载提供了强大的计算能力。
. S# I6 X/ U/ Z' K/ J. y5 N3 P, {/ S0 ^8 A. |
新一代MTIA的性能显示出持续改进,特别是对于高复杂度模型。虽然低复杂度模型立即受益于大型片上SRAM,但高复杂度模型需要更多优化才能有效地在SRAM中分块数据并实现更高的有效FLOPS。在4-6个月的时间内,团队为这些具有挑战性的工作负载实现了超过2倍的性能提升。
; R! x; |1 h( @+ { N3 d+ Z
?0 `8 w: m2 ]新一代MTIA代表了AI加速器技术的进展。通过应对DLRM和GenAI模型日益增长的需求,Meta创造了多功能且强大的解决方案推动下一代AI应用和服务。随着模型复杂性的不断增加,像MTIA这样的创新将在维持AI生态系统的性能、效率和可扩展性方面发挥关键作用。
+ A% Q, ~7 X0 j$ V) N2 @6 {: l6 o) {6 @9 P4 N5 S. L: N1 G
. U% I1 [6 Q0 a( p
参考文献
- m2 G7 b$ }- O+ F/ @7 G9 q# G[1] M. Maddury, P. Kansal and O. Wu, "Next Gen MTIA - Recommendation Inference Accelerator," Meta, 2024.5 |& R; Z; v/ J s
8 l: |+ b0 U' r2 i3 ?- END -
8 t& B1 i* e% \- x: d+ d/ W* ?( j
1 M0 ~ s3 n q6 \; |3 Z1 N! s软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。3 p" x/ ^& o/ T
点击左下角"阅读原文"马上申请
5 }8 R8 x" a* N$ `$ P+ O- U3 M$ G0 F9 @. `- j
欢迎转载
9 _$ h. v% [7 K m6 n. g* H1 `6 s9 u. @ x! s* J
转载请注明出处,请勿修改内容和删除作者信息!4 P2 @$ J* R8 N5 z
3 t0 `6 w; q& M" ?" k
/ c% A$ w' X+ {3 L8 a5 \; r! @( b7 h
/ i, G8 [& u* S4 E* h( o
0itut5rarl464055295727.gif
3 _% N! f0 |. B/ v' J, F" u# X# v
关注我们
. {6 p: A; `3 l4 p0 y0 L- e$ K/ O
6 o, k' [* W0 @1 _! F9 m
. f; ~ Z/ S# }; \
siuf2jnnsva64055295827.png
[' S8 }" S( m4 Z: J( f7 E | & Z, Q _8 V7 U( l" r
zojmsfmzh5064055295927.png
7 Z+ z* Q4 l9 E: k. _& l/ V# M
| / q0 k8 f8 J& E
ox2zgcwl0hw64055296027.png
2 O2 M+ ? M5 H6 X4 u5 a
| " X) Y) W! @9 T* V# @
% q% s: n$ R$ [2 {
4 @3 K& Q. P" X* _1 a
, V* k& i* f: H5 w; V5 f+ I
关于我们:
* B% J$ R3 l% A) R' w- q2 O9 h深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。' o1 K5 Y1 \8 O. v
4 |9 i* G: s' ?: ^ K' E" N6 A
http://www.latitudeda.com/
; J8 u% n! F9 k$ U* ~. H(点击上方名片关注我们,发现更多精彩内容) |