基于梯度的神经网络芯片上每权重混合精度量化
原文中文,约300字,阅读约需1分钟。发表于: 。通过高精度量化训练方法,减少模型大小和推理速度,提高 FPGA 部署的低延迟和低功耗神经网络的资源利用率,同时保持准确性。
本文提出了一种在芯片上进行硬件感知的混合精度量化(OHQ)框架,通过构建在芯片上的量化感知管道(OQA)和基于掩码的量化估计(MQE)技术,实现了从硬件感知的混合精度量化。OHQ 在完全无需额外的计算设备和数据访问的情况下,对各种体系结构和压缩比率进行了量化推理,为 ResNet-18 和 MobileNetV3 分别实现了 70%和 73%的准确率,并且相较于部署中的 INT8,减少了 15~30%的延迟。