Hot Chips 2024 | Meta新一代训练和推理加速器

逍遥设计自动化 · 发表于 2024-10-6 08:00:00

引言
随着深度学习推荐模型（DLRMs）和大型语言模型（LLMs）在规模和复杂性上的快速增长，Meta公司开发了新一代Meta训练和推理加速器（MTIA），这是一种尖端解决方案，旨在提高各种AI模型和服务的性能、效率和开发人员生产力。

q5gu0vorwgq64055295326.png

图1：展示了推理模型复杂度（GFLOPS/样本）和模型大小随时间增长的趋势。

开发新一代MTIA的动机源于几个关键因素。首先，DLRM和GenAI模型在规模和计算需求上的爆炸性增长，创造了对更强大、更高效硬件的需求。其次，将GPU部署于这些工作负载中暴露出了有效性能、资源密集度和容量限制等方面的挑战。为应对这些挑战，Meta着手开发一种加速器，能够显著提高总体拥有成本（TCO）的性能比和每瓦性能比，同时高效处理Meta多项服务中的各种模型。

新一代MTIA的主要特性
1. PyTorch Eager模式支持：加速器在作业启动和替换时间方面表现出色，新硬件作业启动时间不到1微秒，完成作业替换时间不到0.5微秒。这一特性提高了系统的整体响应性和吞吐量。

2. 整数动态量化：基于硬件的张量量化提供了与FP32（32位浮点）相当的精度，同时减少了内存和计算需求。这种技术实现了超过99.95%的精度，与基准FP32结果相比。

3. Gen-O-Gen性能：MTIA显著提高了GEMM（通用矩阵乘法）运算，在BF16精度下达到177 TFLOPS - 提升了3.5倍。还支持稀疏矩阵运算，TFLOPS提高了2倍，并实现了ANS（非对称数值系统）权重解压缩，提供50%的压缩率和20%更好的内存到计算张量传输性能。

4. 表批嵌入（TBE）优化：下载和预取嵌入索引的硬件优化使运行时间比上一代快2-3倍。

uo3d4luuxvu64055295427.png

图2：展示了新一代MTIA的整体架构，包括处理元素、内存子系统和接口。

新一代MTIA基于台积电5nm技术构建，运行频率为1.35 GHz。芯片包含23.5亿个门和1.03亿个触发器，尺寸为25.6 x 16.4 mm（421 mm2）。封装尺寸为50mm x 40mm，TDP为90瓦。加速器在GEMM性能方面表现出色：INT8为354 TOPS，FP16为177 TOPS，在稀疏模式下性能翻倍。配备128GB LPDDR5内存，提供204.8 GB/s的带宽。

架构由几个关键组件组成：

控制子系统和主机接口

通过自定义网格网络连接的8x8处理元素网格

分布在四侧的256MB片上SRAM，提供2.7 TB/s带宽

四侧的16通道LPDDR5内存，支持高达128GB容量，带宽为204.8 GB/s
[/ol]
主机接口使用Gen5 x8 PCIe，提供32 GB/s的带宽。包括4MB PCIe描述符SRAM，用于快速描述符获取。控制核心子系统配备四核标量RISC-V处理器，8MB L2缓存和4MB上下文SRAM，用于高效的工作负载分配。

my022od4ly264055295527.png

图3：说明了处理元素的组成部分，包括双RISC-V核心和各种功能单元。

处理元素（PE）是MTIA的核心。每个PE包含双RISC-V核心 - 一个标量核心和一个带向量扩展的核心。命令处理器（CP）协调PE内功能块的执行。固定功能单元加速各种操作，包括矩阵乘法、非线性函数、数据移动、动态量化、权重解压缩和急切模式处理。

每个PE内的点积引擎（DPE）提供2.77 TF/s（FP16）的性能，在稀疏模式下增加到5.54 TF/s。为匹配这一计算能力，MLU、RE和SE单元的数据路径已被拓宽。每个PE还包括384KB本地内存，以支持更大、更复杂的工作负载。

新一代MTIA的一个突出特点是整数动态量化能力。这种基于硬件的解决方案实时调整量化参数，在运行时收集每批次的最小/最大值，并支持按行量化。结果是全连接算子的通道级对称动态量化，与FP32基准结果相比，实现了超过99.95%的精度。

为提高特定工作负载的性能，MTIA包含几项优化：

Eager模式增强：多播写入组允许控制核心向选定PE广播Eager模式工作队列描述符，将PE作业启动时间减少了80%以上。

硬件解压缩：专用解压缩引擎缓解了PCIe和网络拥塞，支持RFC1952（GUNZIP/GZIP）标准，包括静态和动态Huffman编码块。四个解压缩核心提供高达25 GB/s的解压缩率。

PE权重解压缩：使用非对称数值系统（ANS）算法，MTIA实现了接近50%的压缩率，改善了片上内存占用，减少了PE到NoC的读取带宽。

表批嵌入（TBE）：此功能将来自单独嵌入批处理操作的表合并为单个表，与上一代相比，运行时间提高了2-3倍。
[/ol]

5fr2aqnpktn64055295627.png

图4：显示了加速器模块的物理布局，包括内存和PCIe接口规格。

新一代MTIA部署在PCIe CEM FHFL形态因子中，每个模块包含两个MTIA。每个模块支持高达256GB的LPDDR5内存，提供总计409.6 GB/s的内存带宽。板卡TDP为220W，使用64 GB/s Gen5 PCIe接口（2个Gen5 x8）。

在系统拓扑方面，单个机架包含72个MTIA ASIC，分布在三个机箱中，每个机箱容纳12个模块。这种配置自2024年上半年起已在数据中心部署，为Meta的AI工作负载提供了强大的计算能力。

新一代MTIA的性能显示出持续改进，特别是对于高复杂度模型。虽然低复杂度模型立即受益于大型片上SRAM，但高复杂度模型需要更多优化才能有效地在SRAM中分块数据并实现更高的有效FLOPS。在4-6个月的时间内，团队为这些具有挑战性的工作负载实现了超过2倍的性能提升。

新一代MTIA代表了AI加速器技术的进展。通过应对DLRM和GenAI模型日益增长的需求，Meta创造了多功能且强大的解决方案推动下一代AI应用和服务。随着模型复杂性的不断增加，像MTIA这样的创新将在维持AI生态系统的性能、效率和可扩展性方面发挥关键作用。
: l6 o) {6 @9 P4 N5 S. L: N1 G

参考文献
[1] M. Maddury, P. Kansal and O. Wu, "Next Gen MTIA - Recommendation Inference Accelerator," Meta, 2024.

- END -

软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。
点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

/ c% A$ w' X+ {3 L8 a5 \; r! @( b7 h

0itut5rarl464055295727.gif

关注我们

siuf2jnnsva64055295827.png

zojmsfmzh5064055295927.png

ox2zgcwl0hw64055296027.png

% q% s: n$ R$ [2 {

关于我们：
深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/
（点击上方名片关注我们，发现更多精彩内容）

Hot Chips 2024 | Meta新一代训练和推理加速器

发表回复

精选推荐