小红花·文摘

VLABench是一个针对语言条件下机器人操控的长远推理任务的大规模基准，包含100类任务和2000多个对象，强调自然语言指令和推理能力。研究表明，现有视觉语言行动模型在这些任务中仍面临挑战。