小红花·文摘

现有对工具学习的评估主要关注验证大型语言模型（LLMs）与预期结果的一致性。为解决这个问题，提出了ToolEyes系统，用于评估LLMs在真实场景中的工具学习能力。该系统细致地检查了七个现实世界的场景，分析了五个关键方面。评估结果显示，LLMs对特定场景有偏好，并且在工具学习方面的认知能力有限。这些发现为推动工具学习领域提供了有益见解。