小红花·文摘

谷歌DeepMind的最新研究发现，计算优化方法比扩展模型参数更经济有效。研究团队探究了基于过程的密集验证器奖励模型和根据prompt自适应更新模型的响应分布。团队提出了“计算最优”扩展策略，能够在使用少4倍测试计算资源的情况下超越其他方法。