小红花·文摘

云原生 ·

本研究提出了BALROG基准，用于评估大语言模型和视觉语言模型在复杂动态环境中的智能能力。结果表明，这些模型在简单任务中表现尚可，但在视觉决策等复杂任务中存在明显局限，为未来研究提供了开放的基准。

BriefGPT - AI 论文速递 ·