在 FPGA 上使用低精度 Minifloats 和整数进行后训练量化
原文中文,约300字,阅读约需1分钟。发表于: 。在这项研究中,我们通过对模型权重和激活函数使用 3 至 8 位的浮点数和整数量化方案,比较了浮点数量化和整数量化的适用性,验证了低精度 minifloats 在一系列精度 - 准确度权衡中相对于整数量化的有效性,并通过 FPGA 型号评估结果,表明整数量化通常是优选选择。
本文介绍了一种高效部署深度神经网络的梯度后训练量化方法(GPTQ),提出了设计更高效、可扩展的GPTQ方法的准则和基于重要性的混合精度技术,共同促进了GPTQ方法和网络的性能改进。