小红花·文摘

结果监督价值模型（OVM）使用结果监督来训练和优先排序步骤以获得准确的结论。它将多步骤推理转化为规划问题，提供了一种高效的解决方案。在GSM8K和24点游戏数据集上的实验结果显示了OVM的卓越性能。OVM-7B模型在大型语言模型中实现了13B参数的最新成就，为多步骤推理任务中训练验证器的结果监督提供了新的视角。