小红花·文摘

结果监督价值模型（OVM）使用结果监督来训练和优先排序步骤以获得准确的结论。它将多步骤推理转化为规划问题，提供了一种高效的解决方案。在GSM8K和24点游戏数据集上的实验结果显示了OVM的卓越性能。OVM-7B模型在大型语言模型中实现了13B参数的最新成就，为多步骤推理任务中训练验证器的结果监督提供了新的视角。

数学牧人：一种无需标签的逐步验证器，用于数学推理中的 LLMs

BriefGPT - AI 论文速递 ·

结果监督价值模型（OVM）使用结果监督将多步推理转化为规划问题，在两个数学推理数据集上表现出色，并为训练多步推理任务中的验证器提供了新的视角。

数学推理中的规划行为监督验证器

BriefGPT - AI 论文速递 ·