小红花·文摘

本研究提出了一种新方法，深入探讨浮点量化对大规模语言模型训练性能的影响，发现最佳精度与计算能力成正比，为硬件制造商提供了优化建议。

Scaling Laws of Floating-Point Quantization Training

BriefGPT - AI 论文速递 ·

本文探讨了FP8低位数据格式在大规模语言模型训练中的应用，提出了一种新的FP8混合精度框架，显著提高了训练效率和内存使用。实验表明，该方法在H100 GPU上比BF16框架更快，并在多项任务中表现出色，展示了浮点量化在资源受限环境中的潜力。

从 FP8 回到 FP 减少精度对 LLM 训练稳定性的效果量化

BriefGPT - AI 论文速递 ·

研究发现，使用浮点量化可以在大型语言模型中获得出色的性能，尤其是使用FP8和FP4浮点数。对于权重量化，FP4与INT4相比表现出可比、甚至更好的性能。研究提出了两个权重量化的缩放约束条件，对性能的影响微乎其微，同时结合了低秩补偿策略来增强量化方法，特别适用于较小的模型。这些结果为在资源受限环境中高效部署大型语言模型铺平了道路。

了解后训练量化对大规模语言模型的影响

BriefGPT - AI 论文速递 ·