NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测

NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

上海交通大学研究团队提出GTA基准,用于评估通用工具智能体在真实场景中的工具使用能力。研究显示,现有语言模型在复杂任务中的表现不佳,GPT-4仅完成46.59%的任务,主要瓶颈在于参数传递的准确率。

🎯

关键要点

  • 上海交通大学研究团队提出GTA基准,用于评估通用工具智能体在真实场景中的工具使用能力。
  • 现有语言模型在复杂任务中的表现不佳,GPT-4仅完成46.59%的任务,主要瓶颈在于参数传递的准确率。
  • GTA基准的主要特性包括真实用户问题、真实部署的工具和多模态输入输出。
  • GTA通过设计真实世界场景的用户问题和工具,建立了全面的评估框架。
  • 数据集构建包含问题构建和答案构建两个步骤,确保评测集覆盖真实场景。
  • GTA在逐步模式和端到端模式下评估语言模型,显示出当前模型在工具调用上的局限性。
  • 研究发现参数传递准确率是模型完成GTA任务的关键瓶颈。
  • 对GPT-4和Llama-3的错误原因分析显示,GPT-4倾向于生成无动作响应,而Llama-3的错误多源于格式问题。
  • 本文构建了面向复杂真实场景的通用工具智能体评测基准,推动了该领域的研究。
➡️

继续阅读