[AI芯片学习]-关于矩阵乘法和硬件加速的标杆性经典论文

阅读模式 · 发表于 7 天前

点击蓝字关注我们

从1982年卡内基梅隆大学提出脉动阵列理论，到谷歌TPU掀起AI芯片革命，矩阵乘法加速技术如何一步步突破算力与能效的边界？本文梳理近40年关键突破性论文，揭秘计算架构的演进密码！
经典奠基：1980年代，H.T. Kung的脉动阵列理论以“时空映射”重塑并行计算逻辑，普渡大学进一步构建数学框架，为现代AI芯片埋下伏笔。
稀疏革命：MIT与NVIDIA联手推出SpArch，通过哈夫曼调度与矩阵压缩将稀疏计算效率提升19倍；密歇根大学改造TPU，让脉动阵列“轻装上阵”应对稀疏挑战。
硬件狂飙：中科院DianNao首攻神经网络内存瓶颈，谷歌TPU以92 TOPS算力横扫数据中心，揭开ASIC时代大幕。
跨域协同：MIT与英伟达的综述指明“算法-硬件协同优化”路径，量化、剪枝等技术与芯片设计深度耦合。

七篇标杆性论文如下：
一.脉动阵列理论与设计
通用矩阵乘法GEMM非常适合使用脉动阵列来实现

论文1：《Why Systolic Architectures?》
团队：卡内基梅隆大学H.T. Kung领导的研究团队
年份：1982年
简介：首次系统提出脉动阵列的概念，以矩阵乘法为例，展示脉动阵列如何通过时空映射（Space-Time Mapping）优化计算密度和内存带宽。
贡献：奠定了脉动阵列的理论基础，解释其通过规则数据流和本地通信实现高效并行计算的原理，成为后续高性能计算和 AI 加速器设计的灵感来源。

论文2：《The Design of Optimal Systolic Arrays》
团队：普渡大学（Purdue University）的Guo-Jie Li、Benjamin W. Wah
年份：1985年
简介：系统化脉动阵列设计方法，通过参数化模型（数据流速、空间分布、计算周期）构建约束方程，将设计转化为优化问题。以矩阵乘法和滤波为例，展示了最小化硬件规模或完成时间的策略。
贡献：提出首个脉动阵列设计的数学框架，为后续架构提供理论指导。

二.稀疏矩阵计算优化
论文3：《SpArch: Efficient Architecture for Sparse Matrix Multiplication》
团队：
麻省理工学院（MIT）：Zhekai Zhang、Hanrui Wang、Song Han
斯坦福大学/NVIDIA：William J. Dally
年份：2020年
简介：提出SpArch架构，通过矩阵压缩（Condensing）和哈夫曼调度（Huffman Scheduler）减少稀疏矩阵乘法中的部分积矩阵数量，结合行预取器优化输入复用。相比传统方案，DRAM访问减少2.8倍，性能提升4-19倍。
贡献：提出联合优化输入/输出数据复用的方法论，显著降低稀疏计算的内存瓶颈。

论文4：《Sparse-TPU: Adapting Systolic Arrays for Sparse Matrices》
团队：
密歇根大学（University of Michigan）：Xin He、Subhankar Pal、Aporva Amarnath等
NVIDIA：Ronald Dreslinski、Trevor Mudge
年份：2020年
简介：改进TPU的脉动阵列架构以适应稀疏矩阵，提出矩阵分块压缩和条件执行策略。实验显示，相比原始TPU，稀疏矩阵乘法速度提升16倍，能耗降低4-19倍。
贡献：将稀疏性支持融入脉动阵列设计，扩展了TPU的应用场景。

三.神经网络加速器设计
论文5：《DianNao: A small-footprint high-throughput accelerator for ubiquitous machine learning》
团队：陈云霁研究员团队和法国Inria的Olivier Temam
年份：2014年
简介：提出面向大规模卷积神经网络（CNN）和深度神经网络（DNN）的专用加速器DianNao，重点解决内存访问对性能的影响。通过优化数据复用和并行计算，其吞吐量达到452 GOP/s，面积和功耗分别为3.02 mm2和485 mW，相比CPU/GPU显著提升能效。
贡献：首次系统分析内存对神经网络加速器设计的核心影响，提出了结构设计方法论。

论文6：《In-Datacenter Performance Analysis of a Tensor Processing Unit》
团队：谷歌TPU设计团队，Norman P. Jouppi、Cliff Young、David Patterson等
年份：2017年
简介：分析谷歌张量处理单元（TPU）在数据中心的表现。TPU基于256×8位MAC阵列，峰值算力92 TOPS，支持稀疏矩阵加速。实测表明，TPU在推理任务中性能是同期GPU的15-30倍，能效高30-80倍。
贡献：验证了专用ASIC（如TPU）在神经网络推理中的优越性，揭示了计算确定性与延迟优化的关系。

四.深度学习高效处理综述
论文7：《Efficient Processing of Deep Neural Networks: A Tutorial and Survey》
团队：
麻省理工学院（MIT）：Vivienne Sze、Yu-Hsin Chen、Tien-Ju Yang
英伟达（NVIDIA）：Joel Emer
年份：2017年
简介：系统总结DNN的高效处理技术，包括硬件平台（CPU/GPU/FPGA/ASIC）、混合信号电路、算法-硬件协同优化（量化/剪枝）等，并给出评估指标和设计考量。
贡献：为领域研究者提供完整的入门指南，明确了硬件与算法联合优化的关键路径。

如需免费获取以上论文PDF
请进入公众号聊天窗回复“矩阵”
总结
脉动阵列理论：为硬件设计提供数学基础，支持通用性与专用性的平衡。
稀疏计算优化：SpArch和Sparse-TPU通过压缩与调度策略解决稀疏性问题。
神经网络加速器：DianNao和TPU分别代表学术与工业界的经典设计，关注内存与计算效率。
AI硬件加速综述：为研究者梳理技术脉络，指导跨层优化。

需要FPGA入门开发板推荐、H20现货、NVIDIA的GPU开发套件和训推一体机的小伙伴可以加微信详聊：

END

选中篇:

[AI芯片学习]-关于矩阵乘法和硬件加速的标杆性经典论文

本帖子中包含更多资源

发表回复

精选推荐


	选中篇: 置顶\|

选中 篇:

[AI芯片学习]-关于矩阵乘法和硬件加速的标杆性经典论文

本帖子中包含更多资源

发表回复

精选推荐

选中篇: