小红花·文摘

研究人员通过增强大型语言模型的推理能力，提出了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。他们利用蒙特卡洛树搜索迭代收集偏好数据，并将实例级奖励分解为更精细的步骤级信号。通过结果验证和逐步自我评估，他们不断更新新生成数据的质量评估，以增强中间步骤的一致性。该算法使用这些新生成的步骤级偏好数据更新语言模型策略，在算术和常识推理任务上取得了显著性能提升。研究还探讨了训练和推理计算的权衡关系。