小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law
💡
原文中文,约2100字,阅读约需5分钟。
📝
内容提要
谷歌DeepMind的最新研究发现,计算优化方法比扩展模型参数更经济有效。研究团队探究了基于过程的密集验证器奖励模型和根据prompt自适应更新模型的响应分布。团队提出了“计算最优”扩展策略,能够在使用少4倍测试计算资源的情况下超越其他方法。
🎯
关键要点
-
谷歌DeepMind的研究表明,计算优化方法比扩展模型参数更经济有效。
-
小模型在相同计算资源下性能超过14倍参数的大模型。
-
研究团队探讨了动态分配测试时计算资源的方法。
-
推理阶段使用额外计算可以改善输出效果。
-
研究提出了'计算最优'扩展策略,根据prompt难度自适应分配计算资源。
-
团队将问题分为五个难度等级,为每个等级选择最佳策略。
-
计算最优扩展在使用少4倍测试计算资源的情况下超越best-of-N方法。
-
在难度较大的问题上,增加预训练计算更为有效。
-
研究引发网友热议,猜测OpenAI新模型草莓可能采用类似方法。
➡️