Finisky Garden

Finisky Garden -

提升大模型数学推理能力: 过程监督

思维链采用逐步推理的方式得到最终结果,如果模型在某一步出现幻想 (Hallucination),则差之毫厘,谬以千里,后面的错误会被放大,导致错误结果。 OpenAI最近提出使用过程监督 (Process Supervision) 减少大模型幻想并提升大模型的数学推理能力,所以什么是过程监督? 过程监督 (Process Supervision) 是相对于之前的结果监督 (Outcome Supervison) 而言。众所周知,大模型基于人工反馈的强化学习部分需要用到奖励模型 (Reward Model, RM),数学推理能力是基于思维链 (Chain of Thought)。传统的奖励模型采用的是结果监督的方式,仅使用思维链的最终结果进行判别与反馈,而过程监督则是对思维链的每步推理都进行反馈。因此,过程监督是针对思维链和奖励模型的一种改进方案。 OpenAI开源了过程监督的数据集 PRM800K。论文的核心思想很直观,主要关注在实验设计。 OpenAI 博客:# Improving mathematical reasoning with process supervision 论文链接:# Let's Verify Step by Step

OpenAI最近提出使用过程监督减少大模型幻想并提升数学推理能力。过程监督是对思维链的每步推理都进行反馈。OpenAI开源了过程监督的数据集PRM800K。实验结果显示,过程监督可以精确指出错误位置并提供反馈,对模型性能有促进作用。

OpenAI 大模型 数学推理 数据集 过程监督

相关推荐 去reddit讨论

热榜 Top10

观测云
观测云
Dify.AI
Dify.AI
LigaAI
LigaAI
eolink
eolink

推荐或自荐