世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%|开源
💡
原文中文,约3700字,阅读约需9分钟。
📝
内容提要
国产公司极佳视界发布GigaWorld-0模型,成功将VLA模型训练中生成数据比例提升至90%,性能提升近300%。该模型通过生成高保真、多样化的具身交互数据,解决了真实数据稀缺问题,推动具身智能发展。
🎯
关键要点
- 国产公司极佳视界发布GigaWorld-0模型,成功将VLA模型训练中生成数据比例提升至90%。
- VLA模型性能提升近300%,标志着具身智能迈入新阶段。
- 真实数据稀缺限制了VLA大模型的规模化训练与泛化能力。
- 世界模型通过生成高保真、多样化的具身交互数据,解决真实数据不足的问题。
- GigaWorld-0由GigaWorld-0-Video和GigaWorld-0-3D两大组件构成。
- GigaWorld-0-Video采用稀疏注意力机制和MoE架构,提升生成效率与多样性。
- GigaWorld-0-3D结合生成与重建技术,确保生成数据的几何结构与物理动力学准确性。
- GigaWorld-0是首个采用FP8精度端到端训练的世界模型,降低显存占用与训练成本。
- GigaTrain是为大规模生成模型量身打造的统一分布式训练系统,已全面开源。
- GigaWorld-0在具身智能任务中表现优异,生成质量与推理效率兼具。
- 极佳视界成立于2023年,专注于世界模型与具身智能的技术创新与产业落地。
- 公司核心团队由多所知名院校的顶尖研究人员组成,具备强大的研究与产业经验。
- 极佳视界完成亿元级A1轮融资,由华为哈勃、华控基金联合投资。
❓
延伸问答
GigaWorld-0模型的主要创新是什么?
GigaWorld-0模型成功将VLA模型训练中生成数据比例提升至90%,并实现近300%的性能提升。
GigaWorld-0是如何解决真实数据稀缺问题的?
GigaWorld-0通过生成高保真、多样化的具身交互数据,突破了真实数据不足的限制。
GigaWorld-0的两个主要组件是什么?
GigaWorld-0由GigaWorld-0-Video和GigaWorld-0-3D两大组件构成。
GigaWorld-0-Video采用了什么技术来提升生成效率?
GigaWorld-0-Video采用了稀疏注意力机制和MoE架构,提升了生成效率与多样性。
GigaWorld-0在训练中使用了什么样的精度?
GigaWorld-0是首个采用FP8精度端到端训练的世界模型。
极佳视界公司的背景是什么?
极佳视界成立于2023年,专注于世界模型与具身智能的技术创新,核心团队由多所知名院校的顶尖研究人员组成。
➡️