💡
原文中文,约3200字,阅读约需8分钟。
📝
内容提要
上海交通大学研究团队提出GTA基准,用于评估通用工具智能体在真实场景中的工具使用能力。研究显示,现有语言模型在复杂任务中的表现不佳,GPT-4仅完成46.59%的任务,主要瓶颈在于参数传递的准确率。
🎯
关键要点
- 上海交通大学研究团队提出GTA基准,用于评估通用工具智能体在真实场景中的工具使用能力。
- 现有语言模型在复杂任务中的表现不佳,GPT-4仅完成46.59%的任务,主要瓶颈在于参数传递的准确率。
- GTA基准的主要特性包括真实用户问题、真实部署的工具和多模态输入输出。
- GTA通过设计真实世界场景的用户问题和工具,建立了全面的评估框架。
- 数据集构建包含问题构建和答案构建两个步骤,确保评测集覆盖真实场景。
- GTA在逐步模式和端到端模式下评估语言模型,显示出当前模型在工具调用上的局限性。
- 研究发现参数传递准确率是模型完成GTA任务的关键瓶颈。
- 对GPT-4和Llama-3的错误原因分析显示,GPT-4倾向于生成无动作响应,而Llama-3的错误多源于格式问题。
- 本文构建了面向复杂真实场景的通用工具智能体评测基准,推动了该领域的研究。
➡️