💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

上海人工智能实验室开源了生成式世界模型AETHER,该模型基于合成数据训练,具备3D空间决策与规划能力。它结合几何重建与生成建模,提升了动态环境中的智能决策能力,支持目标导向视觉规划、4D动态重建和动作条件视频预测,展现出强大的零样本泛化能力。

🎯

关键要点

  • 上海人工智能实验室开源了生成式世界模型AETHER,基于合成数据训练。
  • AETHER具备3D空间决策与规划能力,支持目标导向视觉规划、4D动态重建和动作条件视频预测。
  • 研究团队将几何重建与生成式建模深度融合,提出了'重建—预测—规划'一体化框架。
  • 传统世界模型忽略几何信息,AETHER通过空间建模显著提升了模型的推理准确性与一致性。
  • AETHER利用海量仿真RGBD数据,开发了完整的数据清洗与动态重建流程。
  • 模型通过三项关键技术提升具身智能系统在动态环境中的感知、建模与决策能力。
  • 目标导向视觉规划能够自动生成合理路径,确保行动路线安全且符合物理规律。
  • 4D动态重建可实现零样本迁移,精确捕捉时空环境的动态变化。
  • 动作条件视频预测通过相机轨迹预测未来场景变化,增强具身智能系统的预测能力。
  • AETHER展现出强大的零样本泛化能力,能够在虚拟数据上训练并应用于真实世界。
  • AETHER设计了统一的多任务框架,实现动态重建、视频预测和动作规划的协同优化。
  • 实验结果显示AETHER在动态场景重建方面达到或超过现有SOTA水平,促进了多任务框架下的任务准确度提升。
➡️

继续阅读