一种可配置和高效的神经网络硬件加速器内存层次结构

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

本研究提出了一种高效的深度神经网络硬件实现框架,利用多级现场生成机制和混合精度基准,显著提高了内存效率和能效。优化的硬件设计和数据排列策略使得该框架在加速和能效方面表现出色,适用于多种应用场景。

🎯

关键要点

  • 本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现高分辨率参数的即时恢复,内存效率提高10-20倍。

  • 该框架在硬件部分采用高效的FPGA实现,与IBM TrueNorth处理器和参考FPGA实现相比,至少实现了152倍的加速和71倍的能效增益。

  • 研究表明,联合搜索方法在所有延迟目标上优于以前的神经体系结构搜索和手动设计的模型,能够将边缘加速器的能源消耗降低高达2倍。

  • 提出了一种新颖的内存数据排列策略,能够有效减小芯片外数据访问,特别适用于基于广义矩阵乘法的终端到终端变压器模型推理,速度提升可达2.8倍。

  • DNN加速器HighLight能够有效将DNN稀疏化转换为降低能耗和延迟的技术,改善DNN应用的精度和能效。

  • 低功耗嵌入式硬件的超高维可重构分析系统HyDRATE在边缘执行实时重新配置,展示了性能随超维数增加而提高的情况。

  • 参数化机器学习加速器通过硬件加速深度神经网络和非神经网络的机器学习算法,能够实现对后端PPA和系统指标的真实估计。

  • 提出了一种基于硬件/软件协同设计的新的约束贝叶斯优化框架,改善能量延迟产品的性能。

  • 提供了一种将预先训练的深度神经网络转换成脉冲神经网络的通用指南,显著改进延迟和功耗。

  • 通过优化硬件资源分配,现有的DNN加速器在保持吞吐量不变的情况下,可以实现1.6~4.2倍的能效提升。

延伸问答

这种神经网络硬件加速器的内存效率提高了多少?

内存效率提高了10-20倍。

该框架与IBM TrueNorth处理器相比的加速和能效增益是多少?

至少实现了152倍的加速和71倍的能效增益。

新提出的内存数据排列策略有什么优势?

能够有效减小芯片外数据访问,速度提升可达2.8倍。

DNN加速器HighLight的主要功能是什么?

能有效将DNN稀疏化转换为降低能耗和延迟的技术。

如何通过硬件加速实现深度神经网络的设计空间探索?

通过物理设计驱动的学习预测框架,结合后端功耗、性能和面积分析,实现对后端PPA和系统指标的真实估计。

该研究提出了什么样的优化框架?

提出了一种基于硬件/软件协同设计的新的约束贝叶斯优化框架。

🏷️

标签

➡️

继续阅读