[AI芯片学习]-关于矩阵乘法和硬件加速的标杆性经典论文
点击蓝字 关注我们从1982年卡内基梅隆大学提出脉动阵列理论,到谷歌TPU掀起AI芯片革命,矩阵乘法加速技术如何一步步突破算力与能效的边界?本文梳理近40年关键突破性论文,揭秘计算架构的演进密码!
经典奠基:1980年代,H.T. Kung的脉动阵列理论以“时空映射”重塑并行计算逻辑,普渡大学进一步构建数学框架,为现代AI芯片埋下伏笔。
稀疏革命:MIT与NVIDIA联手推出SpArch,通过哈夫曼调度与矩阵压缩将稀疏计算效率提升19倍;密歇根大学改造TPU,让脉动阵列“轻装上阵”应对稀疏挑战。
硬件狂飙:中科院DianNao首攻神经网络内存瓶颈,谷歌TPU以92 TOPS算力横扫数据中心,揭开ASIC时代大幕。
跨域协同:MIT与英伟达的综述指明“算法-硬件协同优化”路径,量化、剪枝等技术与芯片设计深度耦合。
七篇标杆性论文如下:
一.脉动阵列理论与设计
通用矩阵乘法GEMM非常适合使用脉动阵列来实现
论文1:《Why Systolic Architectures?》
团队:卡内基梅隆大学H.T. Kung领导的研究团队
年份:1982年
简介:首次系统提出脉动阵列的概念,以矩阵乘法为例,展示脉动阵列如何通过时空映射(Space-Time Mapping)优化计算密度和内存带宽。
贡献:奠定了脉动阵列的理论基础,解释其通过规则数据流和本地通信实现高效并行计算的原理,成为后续高性能计算和 AI 加速器设计的灵感来源。
论文2:《The Design of Optimal Systolic Arrays》
团队:普渡大学(Purdue University)的Guo-Jie Li、Benjamin W. Wah
年份:1985年
简介:系统化脉动阵列设计方法,通过参数化模型(数据流速、空间分布、计算周期)构建约束方程,将设计转化为优化问题。以矩阵乘法和滤波为例,展示了最小化硬件规模或完成时间的策略。
贡献:提出首个脉动阵列设计的数学框架,为后续架构提供理论指导。
二.稀疏矩阵计算优化
论文3:《SpArch: Efficient Architecture for Sparse Matrix Multiplication》
团队:
麻省理工学院(MIT):Zhekai Zhang、Hanrui Wang、Song Han
斯坦福大学/NVIDIA:William J. Dally
年份:2020年
简介:提出SpArch架构,通过矩阵压缩(Condensing)和哈夫曼调度(Huffman Scheduler)减少稀疏矩阵乘法中的部分积矩阵数量,结合行预取器优化输入复用。相比传统方案,DRAM访问减少2.8倍,性能提升4-19倍。
贡献:提出联合优化输入/输出数据复用的方法论,显著降低稀疏计算的内存瓶颈。
论文4:《Sparse-TPU: Adapting Systolic Arrays for Sparse Matrices》
团队:
密歇根大学(University of Michigan):Xin He、Subhankar Pal、Aporva Amarnath等
NVIDIA:Ronald Dreslinski、Trevor Mudge
年份:2020年
简介:改进TPU的脉动阵列架构以适应稀疏矩阵,提出矩阵分块压缩和条件执行策略。实验显示,相比原始TPU,稀疏矩阵乘法速度提升16倍,能耗降低4-19倍。
贡献:将稀疏性支持融入脉动阵列设计,扩展了TPU的应用场景。
三.神经网络加速器设计
论文5:《DianNao: A small-footprint high-throughput accelerator for ubiquitous machine learning》
团队:陈云霁研究员团队和法国Inria的Olivier Temam
年份:2014年
简介:提出面向大规模卷积神经网络(CNN)和深度神经网络(DNN)的专用加速器DianNao,重点解决内存访问对性能的影响。通过优化数据复用和并行计算,其吞吐量达到452 GOP/s,面积和功耗分别为3.02 mm2和485 mW,相比CPU/GPU显著提升能效。
贡献:首次系统分析内存对神经网络加速器设计的核心影响,提出了结构设计方法论。
论文6:《In-Datacenter Performance Analysis of a Tensor Processing Unit》
团队:谷歌TPU设计团队,Norman P. Jouppi、Cliff Young、David Patterson等
年份:2017年
简介:分析谷歌张量处理单元(TPU)在数据中心的表现。TPU基于256×8位MAC阵列,峰值算力92 TOPS,支持稀疏矩阵加速。实测表明,TPU在推理任务中性能是同期GPU的15-30倍,能效高30-80倍。
贡献:验证了专用ASIC(如TPU)在神经网络推理中的优越性,揭示了计算确定性与延迟优化的关系。
四.深度学习高效处理综述
论文7:《Efficient Processing of Deep Neural Networks: A Tutorial and Survey》
团队:
麻省理工学院(MIT):Vivienne Sze、Yu-Hsin Chen、Tien-Ju Yang
英伟达(NVIDIA):Joel Emer
年份:2017年
简介:系统总结DNN的高效处理技术,包括硬件平台(CPU/GPU/FPGA/ASIC)、混合信号电路、算法-硬件协同优化(量化/剪枝)等,并给出评估指标和设计考量。
贡献:为领域研究者提供完整的入门指南,明确了硬件与算法联合优化的关键路径。
如需免费获取以上论文PDF
请进入公众号聊天窗回复“矩阵”
总结
脉动阵列理论:为硬件设计提供数学基础,支持通用性与专用性的平衡。
稀疏计算优化:SpArch和Sparse-TPU通过压缩与调度策略解决稀疏性问题。
神经网络加速器:DianNao和TPU分别代表学术与工业界的经典设计,关注内存与计算效率。
AI硬件加速综述:为研究者梳理技术脉络,指导跨层优化。
需要FPGA入门开发板推荐、H20现货、NVIDIA的GPU开发套件和训推一体机的小伙伴可以加微信详聊:
END
页:
[1]