小红花·文摘

本研究提出了一种新的奖励建模方法AgentRM，以提高大语言模型智能体在未见任务中的泛化能力。研究表明，该方法显著提升了智能体的表现，平均提高8.8分，LLaMA-3-70B模型的泛化能力提升达到12.6分，显示出良好的有效性潜力。