Improving Chain-of-Thought Reasoning through Direct Preference Optimization in Self-Training

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文提出了一种名为Step-DPO的方法,通过优化推理步骤而非整体答案,显著提高大型语言模型在数学推理任务中的准确性。实验结果显示,模型在MATH和GSM8K测试集上表现优异,超越多种闭源模型。此外,研究探讨了训练与推理的权衡,为提升模型性能提供了新见解。

🎯

关键要点

  • 提出了一种名为Step-DPO的方法,通过优化推理步骤而非整体答案,提高大型语言模型在数学推理任务中的准确性。
  • 实验表明,使用10K个偏好数据对和少于500个Step-DPO训练步骤,模型在MATH方面的准确性提高近3%。
  • Step-DPO在Qwen2-72B-Instruct模型上,在MATH和GSM8K测试集上分别达到70.8%和94.0%的分数,超越多种闭源模型。
  • 研究探讨了训练与推理的权衡,为提升模型性能提供了新见解。
  • 通过蒙特卡洛树搜索(MCTS)收集偏好数据,结合结果验证和逐步自我评估,增强中间步骤的一致性。
  • 提出了一种新的DPO损失函数,以缓解低质量响应和约束处理方面的权衡问题。
  • 引入了基于规划的推理学习框架,解决大型语言模型在复杂推理任务中的问题,提高生成推理过程的可靠性和可信度。
  • 通过优化竞争产生的Chain-of-Thought候选项之间的优先级,改进推理任务的性能。
  • 使用偏好优化方法提高语言模型的推理性能,提出数字损坏和弱语言模型提示的补充方案,显著提高准确性。
  • 引入迭代的长度正则化DPO(iLR-DPO),解决冗长问题,并验证其在与GPT-4相媲美的性能上的有效性。

延伸问答

Step-DPO方法是如何提高数学推理准确性的?

Step-DPO通过优化推理步骤而非整体答案,显著提高大型语言模型在数学推理任务中的准确性。

在MATH和GSM8K测试集上,Step-DPO的表现如何?

Step-DPO在Qwen2-72B-Instruct模型上,在MATH和GSM8K测试集上分别达到70.8%和94.0%的分数,超越多种闭源模型。

如何收集偏好数据以支持Step-DPO方法?

通过蒙特卡洛树搜索(MCTS)收集偏好数据,结合结果验证和逐步自我评估,增强中间步骤的一致性。

Step-DPO方法在训练与推理之间的权衡是什么?

研究探讨了训练与推理的权衡,为提升模型性能提供了新见解。

Step-DPO方法如何解决低质量响应的问题?

提出了一种新的DPO损失函数,以缓解低质量响应和约束处理方面的权衡问题。

iLR-DPO在Step-DPO中有什么作用?

iLR-DPO解决冗长问题,并验证其在与GPT-4相媲美的性能上的有效性。

➡️

继续阅读