提升大模型数学推理能力: 过程监督
思维链采用逐步推理的方式得到最终结果,如果模型在某一步出现幻想 (Hallucination),则差之毫厘,谬以千里,后面的错误会被放大,导致错误结果。 OpenAI最近提出使用过程监督 (Process Supervision) 减少大模型幻想并提升大模型的数学推理能力,所以什么是过程监督? 过程监督 (Process Supervision) 是相对于之前的结果监督 (Outcome Supervison) 而言。众所周知,大模型基于人工反馈的强化学习部分需要用到奖励模型 (Reward Model, RM),数学推理能力是基于思维链 (Chain of Thought)。传统的奖励模型采用的是结果监督的方式,仅使用思维链的最终结果进行判别与反馈,而过程监督则是对思维链的每步推理都进行反馈。因此,过程监督是针对思维链和奖励模型的一种改进方案。 OpenAI开源了过程监督的数据集 PRM800K。论文的核心思想很直观,主要关注在实验设计。 OpenAI 博客:# Improving mathematical reasoning with process supervision 论文链接:# Let's Verify Step by Step
OpenAI最近提出使用过程监督减少大模型幻想并提升数学推理能力。过程监督是对思维链的每步推理都进行反馈。OpenAI开源了过程监督的数据集PRM800K。实验结果显示,过程监督可以精确指出错误位置并提供反馈,对模型性能有促进作用。