本研究提出了一种新的奖励建模方法AgentRM,以提高大语言模型智能体在未见任务中的泛化能力。研究表明,该方法显著提升了智能体的表现,平均提高8.8分,LLaMA-3-70B模型的泛化能力提升达到12.6分,显示出良好的有效性潜力。
完成下面两步后,将自动完成登录并继续当前操作。