💡 原文中文,约100字,阅读约需1分钟。
📝

内容提要

该基准套件评估代理型大语言模型和视觉语言模型在游戏任务中的推理与决策能力。

🎯

关键要点

  • 该基准套件用于评估代理型大语言模型的推理与决策能力。
  • 该基准套件用于评估视觉语言模型的推理与决策能力。
  • 评估的任务主要集中在游戏领域。
➡️

继续阅读