小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

谷歌DeepMind的最新研究发现,计算优化方法比扩展模型参数更经济有效。研究团队探究了基于过程的密集验证器奖励模型和根据prompt自适应更新模型的响应分布。团队提出了“计算最优”扩展策略,能够在使用少4倍测试计算资源的情况下超越其他方法。

🎯

关键要点

  • 谷歌DeepMind的研究表明,计算优化方法比扩展模型参数更经济有效。

  • 小模型在相同计算资源下性能超过14倍参数的大模型。

  • 研究团队探讨了动态分配测试时计算资源的方法。

  • 推理阶段使用额外计算可以改善输出效果。

  • 研究提出了'计算最优'扩展策略,根据prompt难度自适应分配计算资源。

  • 团队将问题分为五个难度等级,为每个等级选择最佳策略。

  • 计算最优扩展在使用少4倍测试计算资源的情况下超越best-of-N方法。

  • 在难度较大的问题上,增加预训练计算更为有效。

  • 研究引发网友热议,猜测OpenAI新模型草莓可能采用类似方法。

➡️

继续阅读