本文评估了多模态基础模型在具身任务规划方面的性能,并展示了它们的能力和局限性。提出了一个名为MFE-ETP的新基准,通过此基准评估了几种最先进的多模态基础模型,发现它们落后于人类表现。MFE-ETP是一个高质量、大规模、具有挑战性的与现实任务相关的基准。
完成下面两步后,将自动完成登录并继续当前操作。