“具身智能小镇”来了!机器人逛超市买菜满街跑,来自上海AI Lab
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
上海AI实验室推出了首个模拟交互式3D世界“GRUtopia”,包含89个场景类别。项目计划开源,提供demo安装指南。核心工作包括GRScenes(大规模场景数据集)、GRResidents(NPC系统)和GRBench(benchmark)。实验结果表明,使用大型模型作为后端代理的表现更好。研究工作由上海人工智能实验室OpenRobot Lab领衔。
🎯
关键要点
- 上海AI实验室推出首个模拟交互式3D世界GRUtopia,包含89个场景类别。
- 项目计划开源,现阶段在GitHub上提供demo安装指南。
- GRUtopia由多达100k个交互式、带精细注释的场景组成,支持机器人在虚拟环境中进行行为模拟。
- 核心工作包括GRScenes(大规模场景数据集)、GRResidents(NPC系统)和GRBench(评估基准)。
- GRScenes扩展了机器人活动的环境范围,覆盖超市、医院等多种服务场景。
- GRResidents是一个由大模型驱动的NPC系统,能够推断物体之间的空间关系并参与动态对话。
- GRBench评估具身智能表现,包含目标定位导航、社交定位导航和定位操作三个基准。
- 实验结果表明,使用大型模型作为后端代理的表现优于随机策略,Qwen-VL在对话上表现超过GPT-4o。
- 研究工作由上海人工智能实验室OpenRobot Lab领衔,聚焦具身通用人工智能的研究。
❓
延伸问答
GRUtopia是什么?
GRUtopia是由上海AI实验室推出的首个模拟交互式3D世界,包含89个场景类别,支持机器人在虚拟环境中进行行为模拟。
GRUtopia的核心工作有哪些?
GRUtopia的核心工作包括GRScenes(大规模场景数据集)、GRResidents(NPC系统)和GRBench(评估基准)。
GRScenes有什么特点?
GRScenes是一个包含大规模场景数据的数据集,扩展了机器人活动的环境范围,覆盖超市、医院等多种服务场景。
GRResidents系统如何工作?
GRResidents是一个由大模型驱动的NPC系统,能够推断物体之间的空间关系并参与动态对话和任务分配。
GRBench的评估基准包括哪些内容?
GRBench包含目标定位导航、社交定位导航和定位操作三个基准,难度逐渐递增。
实验结果显示使用大型模型的优势是什么?
实验结果表明,使用大型模型作为后端代理的表现优于随机策略,且在对话上Qwen-VL的表现超过了GPT-4o。
➡️