世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%|开源

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

国产公司极佳视界发布GigaWorld-0模型,成功将VLA模型训练中生成数据比例提升至90%,性能提升近300%。该模型通过生成高保真、多样化的具身交互数据,解决了真实数据稀缺问题,推动具身智能发展。

🎯

关键要点

  • 国产公司极佳视界发布GigaWorld-0模型,成功将VLA模型训练中生成数据比例提升至90%。
  • VLA模型性能提升近300%,标志着具身智能迈入新阶段。
  • 真实数据稀缺限制了VLA大模型的规模化训练与泛化能力。
  • 世界模型通过生成高保真、多样化的具身交互数据,解决真实数据不足的问题。
  • GigaWorld-0由GigaWorld-0-Video和GigaWorld-0-3D两大组件构成。
  • GigaWorld-0-Video采用稀疏注意力机制和MoE架构,提升生成效率与多样性。
  • GigaWorld-0-3D结合生成与重建技术,确保生成数据的几何结构与物理动力学准确性。
  • GigaWorld-0是首个采用FP8精度端到端训练的世界模型,降低显存占用与训练成本。
  • GigaTrain是为大规模生成模型量身打造的统一分布式训练系统,已全面开源。
  • GigaWorld-0在具身智能任务中表现优异,生成质量与推理效率兼具。
  • 极佳视界成立于2023年,专注于世界模型与具身智能的技术创新与产业落地。
  • 公司核心团队由多所知名院校的顶尖研究人员组成,具备强大的研究与产业经验。
  • 极佳视界完成亿元级A1轮融资,由华为哈勃、华控基金联合投资。

延伸问答

GigaWorld-0模型的主要创新是什么?

GigaWorld-0模型成功将VLA模型训练中生成数据比例提升至90%,并实现近300%的性能提升。

GigaWorld-0是如何解决真实数据稀缺问题的?

GigaWorld-0通过生成高保真、多样化的具身交互数据,突破了真实数据不足的限制。

GigaWorld-0的两个主要组件是什么?

GigaWorld-0由GigaWorld-0-Video和GigaWorld-0-3D两大组件构成。

GigaWorld-0-Video采用了什么技术来提升生成效率?

GigaWorld-0-Video采用了稀疏注意力机制和MoE架构,提升了生成效率与多样性。

GigaWorld-0在训练中使用了什么样的精度?

GigaWorld-0是首个采用FP8精度端到端训练的世界模型。

极佳视界公司的背景是什么?

极佳视界成立于2023年,专注于世界模型与具身智能的技术创新,核心团队由多所知名院校的顶尖研究人员组成。

➡️

继续阅读