KWT-Tiny:RISC-V 加速,嵌入式关键词检测 Transformer

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

本文介绍了一种优化的 Transformer 硬件加速器,专为 AIoT 系统中的设备端时间序列预测设计。通过整数量化和量化感知训练,实现了 4 位和 6 位量化模型,性能接近 8 位模型。实验结果显示,4 位模型测试损失仅增加 0.63%,运行速度提升 132.33 倍,能耗降低 48.19 倍,证明了在嵌入式 IoT 设备上部署 Transformer 模型的可行性。

🎯

关键要点

  • 本文介绍了一种为 AIoT 系统中的设备端时间序列预测而优化的 Transformer 硬件加速器的设计。
  • 该加速器结合了整数量化和量化感知训练,实现了 6 位和 4 位量化的 Transformer 模型,其精度与 8 位量化模型可比。
  • 在嵌入式 FPGA 上进行的实验表明,4 位量化模型的测试损失仅增加 0.63%,运行速度提升 132.33 倍,能耗降低 48.19 倍。
  • 优化过程虽然可以达到足够的性能,但并不简单。
  • 实现分布式 Softmax 原语和利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复,最小化主内存访问的延迟。
  • 对于仅编码器模型,展示了最优实现与基线版本之间高达 12.8 倍的加速比。
  • 在仅解码器模型中,非自回归模式下实现 16.1 倍加速,自回归模式下实现高达 35.6 倍的加速。

延伸问答

KWT-Tiny的主要功能是什么?

KWT-Tiny是一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器。

KWT-Tiny在性能上有哪些显著提升?

KWT-Tiny的4位量化模型运行速度提升132.33倍,能耗降低48.19倍,测试损失仅增加0.63%。

KWT-Tiny是如何实现量化的?

KWT-Tiny结合了整数量化和量化感知训练,实现了6位和4位量化的Transformer模型。

在嵌入式FPGA上测试KWT-Tiny的结果如何?

在嵌入式FPGA上,KWT-Tiny的4位量化模型显示出优越的性能,测试损失增加极小,且运行速度和能耗表现显著。

KWT-Tiny的优化过程是否复杂?

尽管KWT-Tiny能够达到足够的性能,但优化过程并不简单。

KWT-Tiny在不同模式下的加速比是多少?

在仅解码器模型中,KWT-Tiny在非自回归模式下实现16.1倍加速,自回归模式下实现高达35.6倍的加速。

➡️

继续阅读