PROVE 论文提出了一种新方法,解决多步工具调用中的训练数据与真实工具状态错配问题。通过高质量合成数据和程序化奖励,显著提升了模型在多工具场景下的稳定性。该方法强调执行对齐,确保训练样本与部署环境共享可执行约束,降低了奖励噪声。尽管存在工具覆盖面和维护成本等限制,PROVE 为 Agent 训练提供了重要的改进方向。
完成下面两步后,将自动完成登录并继续当前操作。