ToolEyes:大规模语言模型在实际场景中工具学习能力的细粒度评估

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

现有对工具学习的评估主要关注验证大型语言模型(LLMs)与预期结果的一致性。为解决这个问题,提出了ToolEyes系统,用于评估LLMs在真实场景中的工具学习能力。该系统细致地检查了七个现实世界的场景,分析了五个关键方面。评估结果显示,LLMs对特定场景有偏好,并且在工具学习方面的认知能力有限。这些发现为推动工具学习领域提供了有益见解。

🎯

关键要点

  • 现有对工具学习的评估主要集中在验证大型语言模型(LLMs)与预期结果的一致性上。
  • 现有方法依赖于有限的可以预先确定答案的场景,无法满足真实需求。
  • 过于关注结果忽略了 LLMs 有效利用工具所需的复杂能力。
  • 提出了 ToolEyes 系统,用于评估 LLMs 在真实场景中的工具学习能力。
  • ToolEyes 系统检查了七个现实世界的场景,分析了五个关键方面:格式对齐、意图理解、行为规划、工具选择和答案组织。
  • ToolEyes 拥有约 600 个工具的工具库,充当 LLMs 与物理世界之间的中介。
  • 评估结果显示 LLMs 对特定场景有偏好,且在工具学习方面的认知能力有限。
  • 模型尺寸的扩大甚至加剧了对工具学习的阻碍。
  • 这些发现为推动工具学习领域提供了有益见解。
➡️

继续阅读