在 FPGA 上使用低精度 Minifloats 和整数进行后训练量化

在这项研究中，我们通过对模型权重和激活函数使用 3 至 8 位的浮点数和整数量化方案，比较了浮点数量化和整数量化的适用性，验证了低精度 minifloats 在一系列精度 - 准确度权衡中相对于整数量化的有效性，并通过 FPGA 型号评估结果，表明整数量化通常是优选选择。

本文介绍了一种高效部署深度神经网络的梯度后训练量化方法（GPTQ），提出了设计更高效、可扩展的GPTQ方法的准则和基于重要性的混合精度技术，共同促进了GPTQ方法和网络的性能改进。