机器之心 ·

大模型量化训练极限在哪？腾讯混元提出低比特浮点数训练Scaling Laws

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

AIxiv专栏促进学术交流，聚焦大模型的低精度训练与推理。腾讯混元团队研究浮点数量化训练的Scaling Laws，发现最佳数据量与精度配置策略，揭示训练中的极限与规律，为模型优化提供理论指导。

🎯

关键要点

AIxiv专栏促进学术交流，聚焦大模型的低精度训练与推理。
腾讯混元团队研究浮点数量化训练的Scaling Laws，发现最佳数据量与精度配置策略。
低精度训练旨在降低计算和存储成本，同时保持模型性能。
浮点数量化方案相比整数量化方案对模型效果造成的损失更小。
腾讯混元团队进行了366组不同参数规模和精度的浮点数量化训练，提出了浮点数量化的Scaling Laws。
存在一个模型极限效果及对应的最佳数据量，超过此数据量会对模型效果产生负面影响。
最佳性价比的浮点数量化训练精度落在4-8比特之间。
浮点数由符号位、指数位和尾数位共同决定，团队推导出它们对模型效果的定量关系。
放缩因子共享粒度对模型效果有显著影响，训练时的验证损失与共享粒度的对数成正比例关系。
浮点数量化训练的Scaling Law综合了影响模型效果的多个因素。
存在一个关于数据量的loss最低点，超过此点继续增加数据反而有害。
模型越小，精度越低，极限数据量越早到来，增加数据导致模型效果变差越明显。
在有限资源下，最佳性价比精度配方符合经典幂律关系。
精度与参数量之间存在类似于“汇率”的关系，帮助明确配置策略。
研究为大模型训练中的浮点数量化提供了重要的理论指导，推动实际应用中的广泛部署。

❓

延伸问答

浮点数量化训练的Scaling Laws是什么？

浮点数量化训练的Scaling Laws是腾讯混元团队提出的理论框架，分析了模型大小、训练数据量、指数位、尾数位和量化粒度等因素对模型效果的影响。

低比特浮点数训练的最佳精度范围是多少？

最佳性价比的低比特浮点数训练精度落在4-8比特之间。

浮点数量化相比整数量化的优势是什么？

浮点数量化方案相比整数量化方案对模型效果造成的损失更小，因此更常用于超低精度量化训练。

在浮点数量化训练中，数据量的增加会有什么影响？

超过最佳数据量后，继续增加数据反而会对模型效果产生负面影响。

如何确定浮点数量化训练的最佳配置策略？

可以通过Scaling Laws结合计算资源，明确最佳性价比的浮点数量化训练精度、模型参数量和训练数据量的配置策略。

浮点数的组成部分有哪些？

浮点数由符号位、指数位和尾数位共同决定。

🏷️

继续阅读

NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练
NVIDIA的研究展示了通过大规模训练提升机器人抓取、自动驾驶和虚拟代理能力的突破。GraspGen-X模型适应不同抓手，LCDrive加速自动驾驶决策，...
Inside Google’s System for Coordinated A/B Testing across its Global Service Fleet
Google has shared details of its fleet wide large scale A/B experimentation s...
行业财报 | 康卡斯特、迪士尼、派拉蒙、索尼音乐、环球音乐、腾讯音乐等17家媒体电影音乐公司2026年第一季度业绩汇总
2026年第一季度，康卡斯特、迪士尼、奈飞等媒体公司业绩增长。迪士尼营收251.68亿美元，同比增长7%；奈飞营收122.5亿美元，净利润52.83亿美元...
DeepSeek首轮500亿元融资细节曝光：估值4000亿，腾讯、宁德时代都来了
国内AI企业DeepSeek即将完成首轮融资，计划募资约500亿元，投资方包括腾讯和宁德时代。融资后估值预计达3500亿至4000亿元。创始人梁文锋将投入...
语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
摩根士丹利称搭载英伟达RTX SPARK N1X芯片的PC售价将达到2,900美元
摩根士丹利预测，搭载英伟达RTX SPARK N1X芯片的PC售价将达到2900美元，N1芯片设备售价为1800美元。这些高性能芯片主要面向开发者和内容创...