ViLLA——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解)
💡
原文中文,约4600字,阅读约需11分钟。
📝
内容提要
智元推出了通用具身基座模型Genie Operator-1,基于Vision-Language-Latent-Action (ViLLA)架构,结合多模态大模型与混合专家,利用海量数据提升机器人操作能力,支持复杂任务,展现出优越的泛化性和灵活性。
🎯
关键要点
- 智元推出通用具身基座模型Genie Operator-1,基于ViLLA架构。
- ViLLA架构结合多模态大模型和混合专家,提升机器人操作能力。
- AgiBot World Colosseo是一个大规模机器人操作平台,收集了超过100万条轨迹。
- 硬件配置包括类人机器人、灵巧手和视觉触觉传感器,支持多模态数据收集。
- Genie Operator-1通过潜在动作表示实现从异构数据中学习,提升泛化性和灵活性。
- ViLLA框架分为三个训练阶段,利用潜在动作模型进行机器人控制动作预测。
- 潜在动作模型从网络规模的人类视频中提取动作信息,增强训练数据池。
- 潜在规划器结合视觉语言模型进行与实体无关的规划,提升机器人任务执行能力。
❓
延伸问答
ViLLA架构的主要组成部分是什么?
ViLLA架构主要由多模态大模型(VLM)和混合专家(MoE)组成。
Genie Operator-1的功能是什么?
Genie Operator-1通过潜在动作表示从异构数据中学习,提升机器人操作的泛化性和灵活性。
AgiBot World Colosseo的作用是什么?
AgiBot World Colosseo是一个大规模机器人操作平台,收集了超过100万条轨迹,支持多样化和复杂的机器人操作研究。
ViLLA框架的训练阶段是如何分配的?
ViLLA框架分为三个训练阶段,分别是潜在动作模型训练、潜在规划器伪标签生成和动作专家联合训练。
潜在动作模型如何增强训练数据池?
潜在动作模型通过从网络规模的人类视频中提取动作信息,扩大了训练数据池,弥补了标注数据的不足。
ViLLA架构如何提升机器人任务执行能力?
ViLLA架构结合视觉语言模型和潜在规划器,支持与实体无关的长时间规划,从而提升机器人任务执行能力。
🏷️
标签
➡️