基于hls4ml的FPGA低延迟变换器推理在物理应用中的实现
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器的设计,实现了6位和4位量化的Transformer模型。4位量化模型相比8位量化模型,测试损失仅增加0.63%,运行速度提高132.33倍,能耗减少48.19倍。
🎯
关键要点
-
本文介绍了一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器的设计。
-
该设计结合了整数量化和量化感知训练与优化的硬件设计。
-
实现了6位和4位量化的Transformer模型,其精度与8位量化模型可比。
-
在嵌入式FPGA(Xilinx Spartan-7 XC7S15)上进行了完整的实现,考察了部署Transformer模型的可行性。
-
4位量化模型相比8位量化模型,测试损失仅增加0.63%。
-
4位量化模型的运行速度提高132.33倍,能耗减少48.19倍。
➡️