ToolEyes系统评估大型语言模型在真实场景中的工具学习能力,分析格式对齐、意图理解、行为规划、工具选择和答案组织五个方面。结果显示,模型对特定场景有偏好,工具学习能力有限,且模型尺寸扩大可能阻碍学习。
ToolEyes是一个用于评估大型语言模型在真实场景中工具学习能力的系统。通过细致检查七个现实场景,分析了LLMs在工具学习中的五个关键方面。评估结果显示,LLMs对特定场景有偏好,工具学习认知能力有限。模型尺寸的扩大加剧了对工具学习的阻碍。这些发现对推动工具学习领域具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。