KWT-Tiny:RISC-V 加速,嵌入式关键词检测 Transformer
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
本文介绍了一种优化的 Transformer 硬件加速器,专为 AIoT 系统中的设备端时间序列预测设计。通过整数量化和量化感知训练,实现了 4 位和 6 位量化模型,性能接近 8 位模型。实验结果显示,4 位模型测试损失仅增加 0.63%,运行速度提升 132.33 倍,能耗降低 48.19 倍,证明了在嵌入式 IoT 设备上部署 Transformer 模型的可行性。
🎯
关键要点
- 本文介绍了一种为 AIoT 系统中的设备端时间序列预测而优化的 Transformer 硬件加速器的设计。
- 该加速器结合了整数量化和量化感知训练,实现了 6 位和 4 位量化的 Transformer 模型,其精度与 8 位量化模型可比。
- 在嵌入式 FPGA 上进行的实验表明,4 位量化模型的测试损失仅增加 0.63%,运行速度提升 132.33 倍,能耗降低 48.19 倍。
- 优化过程虽然可以达到足够的性能,但并不简单。
- 实现分布式 Softmax 原语和利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复,最小化主内存访问的延迟。
- 对于仅编码器模型,展示了最优实现与基线版本之间高达 12.8 倍的加速比。
- 在仅解码器模型中,非自回归模式下实现 16.1 倍加速,自回归模式下实现高达 35.6 倍的加速。
❓
延伸问答
KWT-Tiny的主要功能是什么?
KWT-Tiny是一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器。
KWT-Tiny在性能上有哪些显著提升?
KWT-Tiny的4位量化模型运行速度提升132.33倍,能耗降低48.19倍,测试损失仅增加0.63%。
KWT-Tiny是如何实现量化的?
KWT-Tiny结合了整数量化和量化感知训练,实现了6位和4位量化的Transformer模型。
在嵌入式FPGA上测试KWT-Tiny的结果如何?
在嵌入式FPGA上,KWT-Tiny的4位量化模型显示出优越的性能,测试损失增加极小,且运行速度和能耗表现显著。
KWT-Tiny的优化过程是否复杂?
尽管KWT-Tiny能够达到足够的性能,但优化过程并不简单。
KWT-Tiny在不同模式下的加速比是多少?
在仅解码器模型中,KWT-Tiny在非自回归模式下实现16.1倍加速,自回归模式下实现高达35.6倍的加速。
➡️