ARTEMIS:Transformer 神经网络的混合模拟 - 随机 In-DRAM 加速器

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文介绍了TIMELY内存加速器,通过模拟数据局部性和时域接口提高能效,优于现有的R²PIM加速器。研究分析了使用模拟ReRAM进行矩阵操作的性能,提出的加速器在能效上具有优势。此外,AnalogNAS框架在TinyML任务中展示了高准确性,ITA架构实现了低功耗高效能的Transformer推理。

🎯

关键要点

  • TIMELY 是一种创新的处理内存加速器,通过模拟数据局部性和时域接口提高能效,优于现有的 R²PIM 加速器。

  • 研究分析了使用模拟 ReRAM 进行矩阵操作的性能,显示该模拟加速器在能效上具有优势。

  • 提出了一种新颖的内存数据排列策略,能够实现高达 2.8 倍的速度提升,特别适用于基于广义矩阵乘法的变压器模型推理。

  • AnalogNAS 框架在 TinyML 任务中展示了高准确性,能够在 64 核 IMC 芯片上实现更高的模型准确性。

  • ITA 架构实现了低功耗高效能的 Transformer 推理,能效达到 16.9 TOPS/W,面积效率为 5.93 TOPS/mm²。

延伸问答

TIMELY内存加速器的主要优势是什么?

TIMELY内存加速器通过模拟数据局部性和时域接口提高能效,优于现有的R²PIM加速器。

如何通过TIMELY加速器实现速度提升?

通过提出的新颖内存数据排列策略,TIMELY加速器能够实现高达2.8倍的速度提升,特别适用于基于广义矩阵乘法的变压器模型推理。

AnalogNAS框架在TinyML任务中的表现如何?

AnalogNAS框架在TinyML任务中展示了高准确性,并在64核IMC芯片上实现了更高的模型准确性。

ITA架构的能效表现如何?

ITA架构在能效上达到16.9 TOPS/W,面积效率为5.93 TOPS/mm²,表现出低功耗高效能的特点。

TIMELY加速器如何提高矩阵操作的性能?

TIMELY加速器通过使用模拟ReRAM进行关键矩阵操作,显示出比数字ReRAM和SRAM操作更高的能效。

TIMELY加速器的设计理念是什么?

TIMELY加速器的设计理念是通过模拟数据局部性和时域接口来最大化能效,并优化计算密度和吞吐量。

➡️

继续阅读