通过验证器进行多步问题求解:基于模型引导的过程监督的实证分析
原文中文,约500字,阅读约需2分钟。发表于: 。通过使用训练过的验证器评估推理器生成的中间步骤,过程监督在多步问题解决中展示出了显著的改进。为了避免在验证器训练数据上进行昂贵的人工注释,本文引入了一种新颖的自动化数据整理方法,即模型引导的过程监督(MiPS)。MiPS 通过对推理模型的解决方案的样本完成进行注释,并获得一个准确度,该准确度被定义为正确完成的比例,来注释中间步骤。推理器中的错误会导致 MiPS...
本文介绍了一种新颖的自动化数据整理方法,即模型引导的过程监督(MiPS),通过对推理模型的解决方案的样本完成进行注释,并获得一个准确度,来注释中间步骤。研究表明,MiPS方法显著提高了PaLM 2在数学和编码任务上的性能。验证器在不同推理模型之间具有很强的泛化能力。