机器之心 ·

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

上海交通大学研究团队提出GTA基准，用于评估通用工具智能体在真实场景中的工具使用能力。研究显示，现有语言模型在复杂任务中的表现不佳，GPT-4仅完成46.59%的任务，主要瓶颈在于参数传递的准确率。

🎯

🔎

GTA基准的提出填补了现有工具评测与真实场景之间的差距，强调了真实用户问题和多模态输入的重要性。这种评估方式不仅能更准确地反映模型在复杂任务中的表现，还能为未来的智能体研究提供更具针对性的改进方向。

研究表明，当前语言模型在工具调用能力上存在显著局限，尤其是在参数传递的准确率方面。GPT-4和Llama-3的错误分析揭示了不同模型在处理复杂任务时的弱点，提示研究者在优化模型时需关注这些关键瓶颈。

GTA基准引入多模态输入，要求模型处理文本、图像等多种信息。这一设计虽然提升了评估的真实性，但也增加了模型的复杂性，研究者需关注模型在多模态环境下的表现，以确保其在实际应用中的有效性。

❓

GTA基准的主要特性包括真实用户问题、真实部署的工具和多模态输入输出。

现有语言模型在复杂任务中的表现不佳，GPT-4仅完成46.59%的任务，大多数模型完成率低于25%。

GTA基准通过逐步模式和端到端模式评估语言模型，分别关注工具使用的细粒度和实际执行表现。

参数传递准确率是模型完成GTA任务的关键瓶颈，影响最终结果的准确性。

数据集构建流程包括问题构建和答案构建两个步骤，确保评测集覆盖真实场景。

GPT-4倾向于生成无动作响应，而Llama-3的错误多源于格式问题，如未遵循合法的JSON格式。

🏷️