BriefGPT - AI 论文速递 ·

KWT-Tiny：RISC-V 加速，嵌入式关键词检测 Transformer

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

本文介绍了一种优化的 Transformer 硬件加速器，专为 AIoT 系统中的设备端时间序列预测设计。通过整数量化和量化感知训练，实现了 4 位和 6 位量化模型，性能接近 8 位模型。实验结果显示，4 位模型测试损失仅增加 0.63%，运行速度提升 132.33 倍，能耗降低 48.19 倍，证明了在嵌入式 IoT 设备上部署 Transformer 模型的可行性。

🎯

关键要点

本文介绍了一种为 AIoT 系统中的设备端时间序列预测而优化的 Transformer 硬件加速器的设计。
该加速器结合了整数量化和量化感知训练，实现了 6 位和 4 位量化的 Transformer 模型，其精度与 8 位量化模型可比。
在嵌入式 FPGA 上进行的实验表明，4 位量化模型的测试损失仅增加 0.63%，运行速度提升 132.33 倍，能耗降低 48.19 倍。
优化过程虽然可以达到足够的性能，但并不简单。
实现分布式 Softmax 原语和利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复，最小化主内存访问的延迟。
对于仅编码器模型，展示了最优实现与基线版本之间高达 12.8 倍的加速比。
在仅解码器模型中，非自回归模式下实现 16.1 倍加速，自回归模式下实现高达 35.6 倍的加速。

❓

延伸问答

KWT-Tiny的主要功能是什么？

KWT-Tiny是一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器。

KWT-Tiny在性能上有哪些显著提升？

KWT-Tiny的4位量化模型运行速度提升132.33倍，能耗降低48.19倍，测试损失仅增加0.63%。

KWT-Tiny是如何实现量化的？

KWT-Tiny结合了整数量化和量化感知训练，实现了6位和4位量化的Transformer模型。

在嵌入式FPGA上测试KWT-Tiny的结果如何？

在嵌入式FPGA上，KWT-Tiny的4位量化模型显示出优越的性能，测试损失增加极小，且运行速度和能耗表现显著。

KWT-Tiny的优化过程是否复杂？

尽管KWT-Tiny能够达到足够的性能，但优化过程并不简单。

KWT-Tiny在不同模式下的加速比是多少？

在仅解码器模型中，KWT-Tiny在非自回归模式下实现16.1倍加速，自回归模式下实现高达35.6倍的加速。

🏷️