蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO)...

研究人员通过增强大型语言模型的推理能力，提出了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。他们利用蒙特卡洛树搜索迭代收集偏好数据，并将实例级奖励分解为更精细的步骤级信号。通过结果验证和逐步自我评估，他们不断更新新生成数据的质量评估，以增强中间步骤的一致性。该算法使用这些新生成的步骤级偏好数据更新语言模型策略，在算术和常识推理任务上取得了显著性能提升。研究还探讨了训练和推理计算的权衡关系。