本研究提出了EmbodiedBench基准,用于评估多模态大型语言模型(MLLM)在具身代理中的表现。结果显示,尽管MLLM在高层任务中表现良好,但在低层操控任务上存在显著不足,最佳模型GPT-4o的平均分仅为28.9%。
完成下面两步后,将自动完成登录并继续当前操作。