本研究提出ASER算法,旨在解决大型语言模型的低位量化问题,通过误差重建和激活平滑来提升性能。实验结果表明,ASER在保持准确性的同时,能够有效地量化大型语言模型。
T-MAC是一种基于查找表的低位量化方法,旨在提高大型语言模型的推断效率。通过FlattenQuant方法,模型在使用4位和8位权重时实现了显著的速度提升和内存减少,且准确度损失微小。此外,研究还提出了LUT-Q训练方法和BiQGEMM矩阵乘法,进一步优化了深度神经网络的性能和计算需求。
完成下面两步后,将自动完成登录并继续当前操作。