Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」:子任务标注数据训练前者VLM,且三阶段训练后者VLA

💡 原文中文,约6600字,阅读约需16分钟。
📝

内容提要

本文介绍了G0双系统模型,结合视觉-语言-动作(VLA)与多模态规划,提出Galaxea开放世界数据集,旨在提升机器人在复杂任务中的自主感知与执行能力。该数据集包含500小时高保真数据,涵盖150个任务,确保数据一致性与可靠性。G0模型通过三阶段训练策略优化机器人性能,推动具身模型的发展。

🎯

关键要点

  • 本文介绍了G0双系统模型,结合视觉-语言-动作(VLA)与多模态规划,提出Galaxea开放世界数据集。
  • Galaxea开放世界数据集包含500小时高保真数据,涵盖150个任务,确保数据一致性与可靠性。
  • G0模型通过三阶段训练策略优化机器人性能,推动具身模型的发展。
  • G0模型架构基于机器人领域分层规划,结合系统1(VLA)与系统2(VLM)进行高效训练。
  • Galaxea开放世界数据集在真实世界中采集,确保数据的多样性和真实性。
  • 数据采集平台使用Galaxea R1 Lite机器人,具备23自由度,适合复杂操作。
  • 数据采集遵循可观测性、数据量与质量、语言锚定等原则,确保高质量标注。
  • G0-VLA模型采用三阶段训练策略,逐步提升性能和适应性。
  • G0-VLM模型处理高层次自然语言任务指令,为系统1规划子任务指令。
➡️

继续阅读