BALROG是一个开源基准套件,用于评估大语言模型(LLM)和视觉语言模型(VLM)在游戏任务中的推理与决策能力。它通过设计游戏任务和评测指标,帮助研究者比较不同模型的表现,支持模型选择与微调。该套件基于Python实现,采用模块化架构,关注决策过程的可测量性,并支持跨模态推理能力的评估。
本研究提出了BALROG基准,用于评估大语言模型和视觉语言模型在复杂动态环境中的智能能力。结果表明,这些模型在简单任务中表现尚可,但在视觉决策等复杂任务中存在明显局限,为未来研究提供了开放的基准。
完成下面两步后,将自动完成登录并继续当前操作。