PENDRAM:通过通用 DRAM 数据映射策略实现深度神经网络的高性能和能量效率处理

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

本文介绍了针对深度神经网络(DNN)优化的硬件架构和算法,如NicePIM、TIMELY和DDC-PIM,旨在提高能效、降低延迟和能耗。这些方案在性能和资源利用上优于传统方法,促进了深度学习在边缘设备和数据中心的应用。

🎯

关键要点

  • NicePIM 是一种针对 DRAM-PIM 加速器的硬件架构,包含 PIM-Tuner、PIM-Mapper 和 Data-Scheduler 三个关键组件,能够有效优化硬件配置,降低时延和能耗。

  • TIMELY 是一种创新的处理内存加速器,通过模拟数据局部性和时域接口,显著提高能效,优于已有的 R$^2$PIM 加速器。

  • 使用嵌入式动态随机访问存储器 (eDRAM) 作为训练数据的主要存储介质,设计了可逆 DNN 架构和高效的训练引擎 CAMEL,减少了 DNN 训练的能耗。

  • 提出了一种通用框架,通过多级现场生成机制和混合精度基准,实现高分辨率参数的即时恢复,提高内存效率 10-20 倍。

  • 卷积神经网络(CNN)的能效和内存占用依赖于权重量化策略,通过混合量化方案实现精度、能耗和内存要求之间的平衡,节省高达 37% 的能量。

  • DDC-PIM 是一种算法/架构协同设计方法,通过最大化 SRAM 单元的数据容量,实现 MobileNetV2 和 EfficientNet-B0 的显著加速,且无明显准确度损失。

  • ODiMO 是一种硬件感知工具,能够精细映射不同加速器以降低 DNN 推理的能量消耗或延迟,在实际部署中实现了显著的能量和延迟降低。

延伸问答

NicePIM 的主要功能是什么?

NicePIM 是一种针对 DRAM-PIM 加速器的硬件架构,旨在优化 DNN 映射,降低时延和能耗。

TIMELY 如何提高能效?

TIMELY 通过模拟数据局部性和时域接口,采用仅一次输入读取的映射方法,显著提高能效。

DDC-PIM 的优势是什么?

DDC-PIM 通过最大化 SRAM 单元的数据容量,实现 MobileNetV2 和 EfficientNet-B0 的显著加速,且无明显准确度损失。

ODiMO 是什么,它的作用是什么?

ODiMO 是一种硬件感知工具,用于精细映射不同加速器,以降低 DNN 推理的能量消耗或延迟。

如何通过混合量化方案平衡 CNN 的能效和内存占用?

混合量化方案可以优化权重量化策略,从而在精度、能耗和内存要求之间实现更好的平衡,节省高达 37% 的能量。

使用 eDRAM 作为训练数据存储介质的好处是什么?

使用 eDRAM 可以减少 DNN 训练的能耗,并在验证精度上实现类似或更好的性能。

🏷️

标签

➡️

继续阅读