本研究提出了一种新颖的后训练量化方法Pack-PTQ,旨在解决低比特情况下的准确性下降问题。通过自适应打包机制和混合精度量化,Pack-PTQ有效保留了块间依赖性,显著提升了量化性能。实验结果表明,其在2D图像和3D点云分类任务中优于现有技术。
本研究提出了GANQ框架,解决大型语言模型部署中的资源需求问题。通过无训练的GPU自适应优化,显著提升量化性能,减少量化误差,实现2.57倍加速。
本文介绍了ZeroQ框架,旨在实现神经网络的零-shot量化,无需原始数据。通过优化批量归一化统计数据,ZeroQ在多个模型上测试显示出比DFQ更高的精度和更低的计算开销。此外,提出了ZAQ框架和细粒度数据分布对齐方法,进一步提升了量化性能,尤其在图像识别任务中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。