量子位 ·

“具身智能小镇”来了！机器人逛超市买菜满街跑，来自上海AI Lab

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

上海AI实验室推出了首个模拟交互式3D世界“GRUtopia”，包含89个场景类别。项目计划开源，提供demo安装指南。核心工作包括GRScenes（大规模场景数据集）、GRResidents（NPC系统）和GRBench（benchmark）。实验结果表明，使用大型模型作为后端代理的表现更好。研究工作由上海人工智能实验室OpenRobot Lab领衔。

🎯

关键要点

上海AI实验室推出首个模拟交互式3D世界GRUtopia，包含89个场景类别。
项目计划开源，现阶段在GitHub上提供demo安装指南。
GRUtopia由多达100k个交互式、带精细注释的场景组成，支持机器人在虚拟环境中进行行为模拟。
核心工作包括GRScenes（大规模场景数据集）、GRResidents（NPC系统）和GRBench（评估基准）。
GRScenes扩展了机器人活动的环境范围，覆盖超市、医院等多种服务场景。
GRResidents是一个由大模型驱动的NPC系统，能够推断物体之间的空间关系并参与动态对话。
GRBench评估具身智能表现，包含目标定位导航、社交定位导航和定位操作三个基准。
实验结果表明，使用大型模型作为后端代理的表现优于随机策略，Qwen-VL在对话上表现超过GPT-4o。
研究工作由上海人工智能实验室OpenRobot Lab领衔，聚焦具身通用人工智能的研究。

❓

延伸问答

GRUtopia是什么？

GRUtopia是由上海AI实验室推出的首个模拟交互式3D世界，包含89个场景类别，支持机器人在虚拟环境中进行行为模拟。

GRUtopia的核心工作有哪些？

GRUtopia的核心工作包括GRScenes（大规模场景数据集）、GRResidents（NPC系统）和GRBench（评估基准）。

GRScenes有什么特点？

GRScenes是一个包含大规模场景数据的数据集，扩展了机器人活动的环境范围，覆盖超市、医院等多种服务场景。

GRResidents系统如何工作？

GRResidents是一个由大模型驱动的NPC系统，能够推断物体之间的空间关系并参与动态对话和任务分配。

GRBench的评估基准包括哪些内容？

GRBench包含目标定位导航、社交定位导航和定位操作三个基准，难度逐渐递增。

实验结果显示使用大型模型的优势是什么？

实验结果表明，使用大型模型作为后端代理的表现优于随机策略，且在对话上Qwen-VL的表现超过了GPT-4o。

🏷️