基于hls4ml的FPGA低延迟变换器推理在物理应用中的实现

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器的设计,实现了6位和4位量化的Transformer模型。4位量化模型相比8位量化模型,测试损失仅增加0.63%,运行速度提高132.33倍,能耗减少48.19倍。

🎯

关键要点

  • 本文介绍了一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器的设计。

  • 该设计结合了整数量化和量化感知训练与优化的硬件设计。

  • 实现了6位和4位量化的Transformer模型,其精度与8位量化模型可比。

  • 在嵌入式FPGA(Xilinx Spartan-7 XC7S15)上进行了完整的实现,考察了部署Transformer模型的可行性。

  • 4位量化模型相比8位量化模型,测试损失仅增加0.63%。

  • 4位量化模型的运行速度提高132.33倍,能耗减少48.19倍。

➡️

继续阅读