苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
原文中文,约3100字,阅读约需8分钟。发表于: 。大模型在工具调用上还有很大提升空间
苹果发布了一套关于大模型工具调用能力的Benchmark,名为ToolSandbox。该Benchmark采用了场景化测评方法,测试了模型在真实环境中的水平。测试结果显示,闭源模型在工具调用上表现更好,其中GPT-4o得分最高。ToolSandbox关注模型的整体表现、鲁棒性和效率。测试中使用了34个Python函数作为工具,包括搜索、对话、导航、天气、图像处理等多个领域。开源模型在工具调用上表现不佳,更倾向于将问题当作纯文本生成任务。大模型在单/多工具调用和单轮用户请求上表现优异,但在多轮对话和状态依赖任务上优势减弱。规范化是所有模型的挑战之一。大模型在复杂交互场景中仍面临挑战。