GTA:通用工具代理的基准测试
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了 GTA,作为一个通用工具代理的基准,该基准包含真实用户查询、部署的工具和真实的多模态输入,评估大型语言模型在真实世界场景中的工具使用能力,并发现当前大型语言模型在实际任务中的表现存在瓶颈。
AgentTuning是一种提高大型语言模型代理任务能力的方法,同时保持其一般能力。通过使用AgentInstruct与通用领域的开源指令相结合的混合指令调整策略对Llama 2系列进行了指令调整,得到AgentLM。评估结果显示,AgentTuning能够提升语言模型的代理能力,AgentLM-70B在未知代理任务上与GPT-3.5-turbo相媲美。