量子位 ·

李飞飞吴佳俊团队推出具身智能决策能力评价基准，o1-preview登顶

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

李飞飞和吴佳俊团队推出了具身智能决策能力的评估基准EAI，全面评估了18款主流模型。测试结果显示，o1-preview在BEHAVIOR和VirtualHome环境中均获第一，促进了对大模型优缺点的深入理解。

🎯

🔎

EAI作为具身智能决策能力的评估基准，填补了现有研究中缺乏统一标准的空白。通过模块化评估，研究者能够更细致地分析模型在不同子任务上的表现，从而为未来的模型优化提供了明确的方向。

o1-preview在BEHAVIOR和VirtualHome环境中均表现优异，显示出其在跨领域泛化能力上的优势。然而，单项能力的比较也揭示了其他模型在特定任务上的强项，提示研究者在选择模型时需考虑具体应用场景。

研究中对各模型的失败情况进行了深入分析，发现了如误识别中间状态和对物理关系理解不足等问题。这些具体的缺陷分析为后续研究提供了重要的改进依据，强调了在开发新模型时需关注的关键点。

❓

EAI评估基准旨在全面评估具身智能决策能力，提供统一的目标表示方法和模块化评估方式。

o1-preview在BEHAVIOR和VirtualHome环境中均获得第一名，BEHAVIOR环境得分为74.9。

EAI包含目标解释、子目标分解、动作序列规划和转换建模四个关键能力模块。

EAI通过引入线性时态逻辑（LTL）实现目标表示方式的统一，提高模块之间的互操作性。

EAI选择了BEHAVIOR和VirtualHome两个具有代表性但特点迥异的环境，以考察模型的跨领域泛化能力。

EAI的评估结果揭示了模型的优缺点，为后续研究提供了重要参考。

🏷️