本研究提出了EmbodiedEval评估基准,包含328个任务和125个3D场景,增强了多模态大型语言模型的评估多样性,揭示其在具身任务上的不足之处。
该研究整合了大型语言模型和多模态LLMs,提出了利用多模态GPT-4V增强具身任务规划的框架。研究结果表明GPT-4V有效提升了机器人在具身任务中的表现,丰富了对具身智能的理解,并提供了关于人机环境交互的展望。
EMMA是一种编码-解码模型,能够处理交互和具身任务,并在Alexa Arena中的对话引导代理中取得了新的最佳结果。
完成下面两步后,将自动完成登录并继续当前操作。