论文2:《The Design of Optimal Systolic Arrays》 团队:普渡大学(Purdue University)的Guo-Jie Li、Benjamin W. Wah 年份:1985年 简介:系统化脉动阵列设计方法,通过参数化模型(数据流速、空间分布、计算周期)构建约束方程,将设计转化为优化问题。以矩阵乘法和滤波为例,展示了最小化硬件规模或完成时间的策略。 贡献:提出首个脉动阵列设计的数学框架,为后续架构提供理论指导。
二.稀疏矩阵计算优化 论文3:《SpArch: Efficient Architecture for Sparse Matrix Multiplication》 团队:
麻省理工学院(MIT):Zhekai Zhang、Hanrui Wang、Song Han
斯坦福大学/NVIDIA:William J. Dally 年份:2020年 简介:提出SpArch架构,通过矩阵压缩(Condensing)和哈夫曼调度(Huffman Scheduler)减少稀疏矩阵乘法中的部分积矩阵数量,结合行预取器优化输入复用。相比传统方案,DRAM访问减少2.8倍,性能提升4-19倍。 贡献:提出联合优化输入/输出数据复用的方法论,显著降低稀疏计算的内存瓶颈。
论文4:《Sparse-TPU: Adapting Systolic Arrays for Sparse Matrices》 团队:
密歇根大学(University of Michigan):Xin He、Subhankar Pal、Aporva Amarnath等
NVIDIA:Ronald Dreslinski、Trevor Mudge 年份:2020年 简介:改进TPU的脉动阵列架构以适应稀疏矩阵,提出矩阵分块压缩和条件执行策略。实验显示,相比原始TPU,稀疏矩阵乘法速度提升16倍,能耗降低4-19倍。 贡献:将稀疏性支持融入脉动阵列设计,扩展了TPU的应用场景。
三.神经网络加速器设计 论文5:《DianNao: A small-footprint high-throughput accelerator for ubiquitous machine learning》 团队:陈云霁研究员团队和法国Inria的Olivier Temam 年份:2014年 简介:提出面向大规模卷积神经网络(CNN)和深度神经网络(DNN)的专用加速器DianNao,重点解决内存访问对性能的影响。通过优化数据复用和并行计算,其吞吐量达到452 GOP/s,面积和功耗分别为3.02 mm2和485 mW,相比CPU/GPU显著提升能效。 贡献:首次系统分析内存对神经网络加速器设计的核心影响,提出了结构设计方法论。
论文6:《In-Datacenter Performance Analysis of a Tensor Processing Unit》 团队:谷歌TPU设计团队,Norman P. Jouppi、Cliff Young、David Patterson等 年份:2017年 简介:分析谷歌张量处理单元(TPU)在数据中心的表现。TPU基于256×8位MAC阵列,峰值算力92 TOPS,支持稀疏矩阵加速。实测表明,TPU在推理任务中性能是同期GPU的15-30倍,能效高30-80倍。 贡献:验证了专用ASIC(如TPU)在神经网络推理中的优越性,揭示了计算确定性与延迟优化的关系。
四.深度学习高效处理综述 论文7:《Efficient Processing of Deep Neural Networks: A Tutorial and Survey》 团队:
麻省理工学院(MIT):Vivienne Sze、Yu-Hsin Chen、Tien-Ju Yang
英伟达(NVIDIA):Joel Emer 年份:2017年 简介:系统总结DNN的高效处理技术,包括硬件平台(CPU/GPU/FPGA/ASIC)、混合信号电路、算法-硬件协同优化(量化/剪枝)等,并给出评估指标和设计考量。 贡献:为领域研究者提供完整的入门指南,明确了硬件与算法联合优化的关键路径。