AIxiv专栏促进学术交流,聚焦大模型的低精度训练与推理。腾讯混元团队研究浮点数量化训练的Scaling Laws,发现最佳数据量与精度配置策略,揭示训练中的极限与规律,为模型优化提供理论指导。
AI领域对Scaling Laws是否遇到瓶颈展开热议,OpenAI CEO Sam Altman表示“没有墙”。OpenAI计划推出名为“Operator”的AI代理,能替用户执行任务。尽管Orion模型训练已完成20%,但性能提升有限且训练成本高。Google和Anthropic等公司也面临类似挑战,AI技术发展需探索新方向。
研究表明,训练的token数量越多,所需的精度越高,低精度量化可能失效。提出了“精度感知”Scaling Laws,强调在大规模模型的预训练和推理中需关注精度与性能的平衡。
OpenAI的Scaling Laws被视为大语言模型的摩尔定律。清华大学博士指出,为了提升模型性能,需要增加数据量至少10个数量级。华盛顿大学等机构提出了实验测试平台DCLM,通过固定训练代码,鼓励研究人员提出新的训练集来进行创新。DCLM-BASELINE是一个高质量训练集,通过基于模型的过滤达到了64%的准确性。DCLM提供了新的思考范式和可能性。
字节跳动的Depth Anything V2模型已被苹果收入Core ML模型库,该模型是一种单目深度估计模型,可应用于视频特效、自动驾驶、3D建模、增强现实等领域。V2版本在细节处理和速度上有显著提升,通过Scaling Laws思路构建并通过训练和优化不断提升性能。该模型的论文已被选入CVPR 2024,其中一作是团队的实习生。
完成下面两步后,将自动完成登录并继续当前操作。