EmbodiedBench: A Comprehensive Benchmark for Multi-modal Large Language Models in Vision-driven Embodied Agents

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了EmbodiedBench基准,用于评估多模态大型语言模型(MLLM)在具身代理中的表现。结果显示,尽管MLLM在高层任务中表现良好,但在低层操控任务上存在显著不足,最佳模型GPT-4o的平均分仅为28.9%。

🎯

关键要点

  • 本研究提出了EmbodiedBench基准,用于评估多模态大型语言模型(MLLM)在具身代理中的表现。
  • 研究发现,尽管MLLM在高层任务中表现良好,但在低层操控任务上存在显著不足。
  • 最佳模型GPT-4o的平均分仅为28.9%。
➡️

继续阅读