EmbodiedBench: A Comprehensive Benchmark for Multi-modal Large Language Models in Vision-driven Embodied Agents
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了EmbodiedBench基准,用于评估多模态大型语言模型(MLLM)在具身代理中的表现。结果显示,尽管MLLM在高层任务中表现良好,但在低层操控任务上存在显著不足,最佳模型GPT-4o的平均分仅为28.9%。
🎯
关键要点
- 本研究提出了EmbodiedBench基准,用于评估多模态大型语言模型(MLLM)在具身代理中的表现。
- 研究发现,尽管MLLM在高层任务中表现良好,但在低层操控任务上存在显著不足。
- 最佳模型GPT-4o的平均分仅为28.9%。
➡️