蒙特卡洛树搜索通过迭代偏好学习提高推理能力
原文中文,约400字,阅读约需1分钟。发表于: 。通过增强大型语言模型的推理能力,我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据,将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性,我们结合了结果验证和逐步自我评估,不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO)...
研究人员通过增强大型语言模型的推理能力,提出了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。他们利用蒙特卡洛树搜索迭代收集偏好数据,并将实例级奖励分解为更精细的步骤级信号。通过结果验证和逐步自我评估,他们不断更新新生成数据的质量评估,以增强中间步骤的一致性。该算法使用这些新生成的步骤级偏好数据更新语言模型策略,在算术和常识推理任务上取得了显著性能提升。研究还探讨了训练和推理计算的权衡关系。