基于hls4ml的FPGA低延迟变换器推理在物理应用中的实现
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了在FPGA上实现高效变换器架构的挑战,提出了一种利用hls4ml的方法来实现多头注意力、softmax和归一化层。研究表明,在VU13P FPGA芯片上的延迟低于2微秒,展示了其在实时应用中的潜力。
本文介绍了一种为AIoT系统中的设备端时间序列预测而优化的Transformer硬件加速器的设计,实现了6位和4位量化的Transformer模型。4位量化模型相比8位量化模型,测试损失仅增加0.63%,运行速度提高132.33倍,能耗减少48.19倍。