小红花·文摘

本研究提出了EmbodiedBench基准，用于评估多模态大型语言模型（MLLM）在具身代理中的表现。结果显示，尽管MLLM在高层任务中表现良好，但在低层操控任务上存在显著不足，最佳模型GPT-4o的平均分仅为28.9%。