大型语言猴子：重复采样扩展推理计算

在语言模型训练中，扩展计算量已经大幅提高了其能力，但在推断中，我们通常限制计算量仅为每个问题尝试一次。在本文中，我们探讨了推断计算作为另一个扩展维度，通过增加生成样本的数量进行扩展。在多个任务和模型中，我们观察到覆盖范围（任何尝试解决的问题的比例）在样本数量上呈现四个数量级的扩展。在编码和形式证明等领域，其中所有答案都可以自动验证，这种覆盖范围的增加直接转化为改进的性能。当我们将重复采样应用...

本文探讨了通过增加生成样本数量来扩展语言模型推断计算量的方法，发现增加样本数量可以显著提高覆盖范围和性能。覆盖范围和样本数量之间的关系通常是对数线性的，可以用指数幂律建模。识别正确样本仍是未来研究的重要方向。

性能指数幂律生成样本数量覆盖范围语言模型推断