小红花·文摘

ToolEyes系统评估大型语言模型在真实场景中的工具学习能力，分析格式对齐和意图理解等五个方面。结果表明，LLMs在特定场景中有偏好，工具学习能力有限，模型尺寸扩大反而阻碍学习。