自适应步骤:通过模型置信度自动划分推理步骤

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种自适应步骤方法,解决了过程奖励模型训练中固定规则划分推理步骤的问题,从而提升了数学推理和代码生成任务的效果,成本降低超过30%。

🎯

关键要点

  • 本研究提出了一种自适应步骤方法,解决了过程奖励模型训练中固定规则划分推理步骤的问题。
  • 自适应步骤方法通过模型在预测下一个词时的置信度来划分推理步骤。
  • 这一新方法在数学推理和代码生成任务中有效提升了奖励模型学习的效果。
  • 成本上较现有开源过程奖励模型降低超过30%。
➡️

继续阅读