💡
原文中文,约2100字,阅读约需5分钟。
📝
内容提要
上海人工智能实验室开源了生成式世界模型AETHER,该模型基于合成数据训练,具备3D空间决策与规划能力。它结合几何重建与生成建模,提升了动态环境中的智能决策能力,支持目标导向视觉规划、4D动态重建和动作条件视频预测,展现出强大的零样本泛化能力。
🎯
关键要点
- 上海人工智能实验室开源了生成式世界模型AETHER,基于合成数据训练。
- AETHER具备3D空间决策与规划能力,支持目标导向视觉规划、4D动态重建和动作条件视频预测。
- 研究团队将几何重建与生成式建模深度融合,提出了'重建—预测—规划'一体化框架。
- 传统世界模型忽略几何信息,AETHER通过空间建模显著提升了模型的推理准确性与一致性。
- AETHER利用海量仿真RGBD数据,开发了完整的数据清洗与动态重建流程。
- 模型通过三项关键技术提升具身智能系统在动态环境中的感知、建模与决策能力。
- 目标导向视觉规划能够自动生成合理路径,确保行动路线安全且符合物理规律。
- 4D动态重建可实现零样本迁移,精确捕捉时空环境的动态变化。
- 动作条件视频预测通过相机轨迹预测未来场景变化,增强具身智能系统的预测能力。
- AETHER展现出强大的零样本泛化能力,能够在虚拟数据上训练并应用于真实世界。
- AETHER设计了统一的多任务框架,实现动态重建、视频预测和动作规划的协同优化。
- 实验结果显示AETHER在动态场景重建方面达到或超过现有SOTA水平,促进了多任务框架下的任务准确度提升。
➡️