小红花·文摘

The JetBrains Blog ·

李飞飞和吴佳俊团队推出了具身智能决策能力的评估基准EAI，全面评估了18款主流模型。测试结果显示，o1-preview在BEHAVIOR和VirtualHome环境中均获第一，促进了对大模型优缺点的深入理解。

量子位 ·