全步长DPO:带有逐步奖励的自监督偏好优化用于数学推理

📝

内容提要

本研究针对现有直接偏好优化方法在长链数学推理中的不足,提出了一种新颖的全步长DPO框架,能够利用整个推理链中的逐步奖励进行优化。通过训练自监督过程奖励模型,自动为每一步评分并避免对外部信号的依赖,研究结果显示全步长DPO在数学推理基准测试中表现优于现有的最佳方法,显著提升了语言模型的推理能力。

🏷️

标签

➡️

继续阅读