过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

清华大学与上海AI实验室提出的生成式过程奖励模型GenPRM,通过结合思维链推理与代码验证,显著提升了大语言模型的推理能力。GenPRM在复杂推理任务中表现优异,仅用23K样本便超越了GPT-4o,展现出强大的过程监督能力,为大语言模型的可解释性提供了新思路。

🎯

关键要点

  • 清华大学与上海AI实验室提出生成式过程奖励模型GenPRM,提升大语言模型推理能力。
  • GenPRM在复杂推理任务中表现优异,仅用23K样本超越GPT-4o。
  • 传统过程奖励模型受限于标量评分机制,难以捕捉深层逻辑错误。
  • GenPRM结合思维链推理与代码验证,提供透明的步骤评估。
  • 通过并行采样N条推理路径,GenPRM提升评估精度。
  • GenPRM仅使用23K训练样本,源于独特的数据合成方法。
  • 相对进步估计(RPE)提升标签准确性,避免硬估计误判。
  • GenPRM在ProcessBench基准测试中表现优异,证明测试时扩展能放大模型能力。
  • GenPRM可作为验证器和批评者,提升策略模型的回答准确率。
  • 研究者已开源代码、模型及训练数据集,为大语言模型可解释性提供新思路。

延伸问答

GenPRM模型的主要创新点是什么?

GenPRM模型结合了思维链推理与代码验证,提升了大语言模型的推理能力,并引入了测试时扩展机制。

GenPRM如何在复杂推理任务中超越GPT-4o?

GenPRM仅使用23K样本,通过测试时扩展和并行采样多条推理路径,显著提升了评估精度,从而超越了GPT-4o。

传统过程奖励模型的局限性是什么?

传统过程奖励模型受限于标量评分机制,难以捕捉深层逻辑错误,且无法通过增加计算资源提升判断精度。

GenPRM是如何提高标签准确性的?

GenPRM通过相对进步估计(RPE)改进硬估计,评估每步质量,避免了传统方法的误判。

GenPRM在数据使用上有什么优势?

GenPRM仅使用23K训练样本,远少于其他模型,得益于独特的数据合成方法和代码验证。

GenPRM如何作为验证器和批评者提升模型性能?

GenPRM作为验证器筛选答案,同时作为批评者提供步骤级别的反馈,显著提升策略模型的回答准确率。

➡️

继续阅读