PENDRAM:通过通用 DRAM 数据映射策略实现深度神经网络的高性能和能量效率处理
内容提要
本文介绍了针对深度神经网络(DNN)优化的硬件架构和算法,如NicePIM、TIMELY和DDC-PIM,旨在提高能效、降低延迟和能耗。这些方案在性能和资源利用上优于传统方法,促进了深度学习在边缘设备和数据中心的应用。
关键要点
-
NicePIM 是一种针对 DRAM-PIM 加速器的硬件架构,包含 PIM-Tuner、PIM-Mapper 和 Data-Scheduler 三个关键组件,能够有效优化硬件配置,降低时延和能耗。
-
TIMELY 是一种创新的处理内存加速器,通过模拟数据局部性和时域接口,显著提高能效,优于已有的 R$^2$PIM 加速器。
-
使用嵌入式动态随机访问存储器 (eDRAM) 作为训练数据的主要存储介质,设计了可逆 DNN 架构和高效的训练引擎 CAMEL,减少了 DNN 训练的能耗。
-
提出了一种通用框架,通过多级现场生成机制和混合精度基准,实现高分辨率参数的即时恢复,提高内存效率 10-20 倍。
-
卷积神经网络(CNN)的能效和内存占用依赖于权重量化策略,通过混合量化方案实现精度、能耗和内存要求之间的平衡,节省高达 37% 的能量。
-
DDC-PIM 是一种算法/架构协同设计方法,通过最大化 SRAM 单元的数据容量,实现 MobileNetV2 和 EfficientNet-B0 的显著加速,且无明显准确度损失。
-
ODiMO 是一种硬件感知工具,能够精细映射不同加速器以降低 DNN 推理的能量消耗或延迟,在实际部署中实现了显著的能量和延迟降低。
延伸问答
NicePIM 的主要功能是什么?
NicePIM 是一种针对 DRAM-PIM 加速器的硬件架构,旨在优化 DNN 映射,降低时延和能耗。
TIMELY 如何提高能效?
TIMELY 通过模拟数据局部性和时域接口,采用仅一次输入读取的映射方法,显著提高能效。
DDC-PIM 的优势是什么?
DDC-PIM 通过最大化 SRAM 单元的数据容量,实现 MobileNetV2 和 EfficientNet-B0 的显著加速,且无明显准确度损失。
ODiMO 是什么,它的作用是什么?
ODiMO 是一种硬件感知工具,用于精细映射不同加速器,以降低 DNN 推理的能量消耗或延迟。
如何通过混合量化方案平衡 CNN 的能效和内存占用?
混合量化方案可以优化权重量化策略,从而在精度、能耗和内存要求之间实现更好的平衡,节省高达 37% 的能量。
使用 eDRAM 作为训练数据存储介质的好处是什么?
使用 eDRAM 可以减少 DNN 训练的能耗,并在验证精度上实现类似或更好的性能。