上海交通大学研究团队提出GTA基准,用于评估通用工具智能体在真实场景中的工具使用能力。研究显示,现有语言模型在复杂任务中的表现不佳,GPT-4仅完成46.59%的任务,主要瓶颈在于参数传递的准确率。
完成下面两步后,将自动完成登录并继续当前操作。