本研究提出了一种后训练量化框架,通过细粒度分组和EM量化方案,将大语言模型的权重量化为1位,显著降低量化误差并提升性能。
本文提出了SQuat方法,解决了键值缓存量化中的误差累积问题。该方法通过构建查询张量生成的子空间,确保量化后的键与原始键之间的差异正交,从而减小量化误差对注意力机制的影响。实验结果表明,SQuat在内存占用和处理能力方面优于现有算法。
本研究提出了一种粗到细的标记预测方法,解决自回归图像生成中的量化误差问题。实验结果显示,Inception分数平均提升59分,且采样速度更快。
本研究提出了一种新的列级量化方法,旨在解决深度神经网络中的量化误差和低位权重限制问题。该方法提高了准确性,简化了训练过程,并增强了对内存单元变化的鲁棒性。实验结果表明,该方法在准确性和硬件效率上均优于相关研究。
本研究探讨了大语言模型后训练量化中的块间交互问题,关注量化误差。引入两种多块微调策略,发现这些方法在特定网络模型上显著提升了量化效果。
后训练量化在视觉Transformer中受到关注,但现有方法常忽视权重和激活间的复杂依赖,导致量化误差。论文提出ERQ方法,通过减少激活和权重量化误差来优化。实验表明,ERQ在ViT-S上性能优于GPTQ,提升22.36%。
本文介绍了旋转二进制神经网络(RBNN)框架,通过优化全精度权重与二进制版本的对齐,减少量化误差。RBNN在CIFAR-10和ImageNet数据集上表现优异。此外,提出的自适应二值化方法AdaBin和其他训练技术显著提升了二进制神经网络的性能和计算效率。
完成下面两步后,将自动完成登录并继续当前操作。