本研究提出了一种新颖的后训练量化方法Pack-PTQ,旨在解决低比特情况下的准确性下降问题。通过自适应打包机制和混合精度量化,Pack-PTQ有效保留了块间依赖性,显著提升了量化性能。实验结果表明,其在2D图像和3D点云分类任务中优于现有技术。
本研究提出了GANQ框架,解决大型语言模型部署中的资源需求问题。通过无训练的GPU自适应优化,显著提升量化性能,减少量化误差,实现2.57倍加速。
完成下面两步后,将自动完成登录并继续当前操作。