ViLLA——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解)

💡 原文中文,约4600字,阅读约需11分钟。
📝

内容提要

智元推出了通用具身基座模型Genie Operator-1,基于Vision-Language-Latent-Action (ViLLA)架构,结合多模态大模型与混合专家,利用海量数据提升机器人操作能力,支持复杂任务,展现出优越的泛化性和灵活性。

🎯

关键要点

  • 智元推出通用具身基座模型Genie Operator-1,基于ViLLA架构。
  • ViLLA架构结合多模态大模型和混合专家,提升机器人操作能力。
  • AgiBot World Colosseo是一个大规模机器人操作平台,收集了超过100万条轨迹。
  • 硬件配置包括类人机器人、灵巧手和视觉触觉传感器,支持多模态数据收集。
  • Genie Operator-1通过潜在动作表示实现从异构数据中学习,提升泛化性和灵活性。
  • ViLLA框架分为三个训练阶段,利用潜在动作模型进行机器人控制动作预测。
  • 潜在动作模型从网络规模的人类视频中提取动作信息,增强训练数据池。
  • 潜在规划器结合视觉语言模型进行与实体无关的规划,提升机器人任务执行能力。

延伸问答

ViLLA架构的主要组成部分是什么?

ViLLA架构主要由多模态大模型(VLM)和混合专家(MoE)组成。

Genie Operator-1的功能是什么?

Genie Operator-1通过潜在动作表示从异构数据中学习,提升机器人操作的泛化性和灵活性。

AgiBot World Colosseo的作用是什么?

AgiBot World Colosseo是一个大规模机器人操作平台,收集了超过100万条轨迹,支持多样化和复杂的机器人操作研究。

ViLLA框架的训练阶段是如何分配的?

ViLLA框架分为三个训练阶段,分别是潜在动作模型训练、潜在规划器伪标签生成和动作专家联合训练。

潜在动作模型如何增强训练数据池?

潜在动作模型通过从网络规模的人类视频中提取动作信息,扩大了训练数据池,弥补了标注数据的不足。

ViLLA架构如何提升机器人任务执行能力?

ViLLA架构结合视觉语言模型和潜在规划器,支持与实体无关的长时间规划,从而提升机器人任务执行能力。

➡️

继续阅读