“具身智能小镇”来了!机器人逛超市买菜满街跑,来自上海AI Lab

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

上海AI实验室推出了首个模拟交互式3D世界“GRUtopia”,包含89个场景类别。项目计划开源,提供demo安装指南。核心工作包括GRScenes(大规模场景数据集)、GRResidents(NPC系统)和GRBench(benchmark)。实验结果表明,使用大型模型作为后端代理的表现更好。研究工作由上海人工智能实验室OpenRobot Lab领衔。

🎯

关键要点

  • 上海AI实验室推出首个模拟交互式3D世界GRUtopia,包含89个场景类别。
  • 项目计划开源,现阶段在GitHub上提供demo安装指南。
  • GRUtopia由多达100k个交互式、带精细注释的场景组成,支持机器人在虚拟环境中进行行为模拟。
  • 核心工作包括GRScenes(大规模场景数据集)、GRResidents(NPC系统)和GRBench(评估基准)。
  • GRScenes扩展了机器人活动的环境范围,覆盖超市、医院等多种服务场景。
  • GRResidents是一个由大模型驱动的NPC系统,能够推断物体之间的空间关系并参与动态对话。
  • GRBench评估具身智能表现,包含目标定位导航、社交定位导航和定位操作三个基准。
  • 实验结果表明,使用大型模型作为后端代理的表现优于随机策略,Qwen-VL在对话上表现超过GPT-4o。
  • 研究工作由上海人工智能实验室OpenRobot Lab领衔,聚焦具身通用人工智能的研究。

延伸问答

GRUtopia是什么?

GRUtopia是由上海AI实验室推出的首个模拟交互式3D世界,包含89个场景类别,支持机器人在虚拟环境中进行行为模拟。

GRUtopia的核心工作有哪些?

GRUtopia的核心工作包括GRScenes(大规模场景数据集)、GRResidents(NPC系统)和GRBench(评估基准)。

GRScenes有什么特点?

GRScenes是一个包含大规模场景数据的数据集,扩展了机器人活动的环境范围,覆盖超市、医院等多种服务场景。

GRResidents系统如何工作?

GRResidents是一个由大模型驱动的NPC系统,能够推断物体之间的空间关系并参与动态对话和任务分配。

GRBench的评估基准包括哪些内容?

GRBench包含目标定位导航、社交定位导航和定位操作三个基准,难度逐渐递增。

实验结果显示使用大型模型的优势是什么?

实验结果表明,使用大型模型作为后端代理的表现优于随机策略,且在对话上Qwen-VL的表现超过了GPT-4o。

➡️

继续阅读