蒙特卡洛树搜索通过迭代偏好学习提高推理能力

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

研究人员通过增强大型语言模型的推理能力,提出了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。他们利用蒙特卡洛树搜索迭代收集偏好数据,并将实例级奖励分解为更精细的步骤级信号。通过结果验证和逐步自我评估,他们不断更新新生成数据的质量评估,以增强中间步骤的一致性。该算法使用这些新生成的步骤级偏好数据更新语言模型策略,在算术和常识推理任务上取得了显著性能提升。研究还探讨了训练和推理计算的权衡关系。

原文中文,约400字,阅读约需1分钟。
阅读原文