小红花·文摘

本研究提出了一种后训练量化框架，通过细粒度分组和EM量化方案，将大语言模型的权重量化为1位，显著降低量化误差并提升性能。

BriefGPT - AI 论文速递 ·

本文提出了SQuat方法，解决了键值缓存量化中的误差累积问题。该方法通过构建查询张量生成的子空间，确保量化后的键与原始键之间的差异正交，从而减小量化误差对注意力机制的影响。实验结果表明，SQuat在内存占用和处理能力方面优于现有算法。

BriefGPT - AI 论文速递 ·

本研究提出了一种粗到细的标记预测方法，解决自回归图像生成中的量化误差问题。实验结果显示，Inception分数平均提升59分，且采样速度更快。

BriefGPT - AI 论文速递 ·

本研究提出了一种新的列级量化方法，旨在解决深度神经网络中的量化误差和低位权重限制问题。该方法提高了准确性，简化了训练过程，并增强了对内存单元变化的鲁棒性。实验结果表明，该方法在准确性和硬件效率上均优于相关研究。

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型后训练量化中的块间交互问题，关注量化误差。引入两种多块微调策略，发现这些方法在特定网络模型上显著提升了量化效果。

BriefGPT - AI 论文速递 ·

后训练量化在视觉Transformer中受到关注，但现有方法常忽视权重和激活间的复杂依赖，导致量化误差。论文提出ERQ方法，通过减少激活和权重量化误差来优化。实验表明，ERQ在ViT-S上性能优于GPTQ，提升22.36%。

晓飞的算法工程笔记 ·

本文介绍了旋转二进制神经网络（RBNN）框架，通过优化全精度权重与二进制版本的对齐，减少量化误差。RBNN在CIFAR-10和ImageNet数据集上表现优异。此外，提出的自适应二值化方法AdaBin和其他训练技术显著提升了二进制神经网络的性能和计算效率。

BriefGPT - AI 论文速递 ·