机器之心 ·

合成数据也能通吃真实世界？首个融合重建-预测-规划的生成式世界模型AETHER开源

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

上海人工智能实验室开源了生成式世界模型AETHER，该模型基于合成数据训练，具备3D空间决策与规划能力。它结合几何重建与生成建模，提升了动态环境中的智能决策能力，支持目标导向视觉规划、4D动态重建和动作条件视频预测，展现出强大的零样本泛化能力。

🎯

🔎

AETHER模型的成功在于其基于合成数据的训练，这使得它在缺乏真实数据的情况下仍能展现出强大的零样本泛化能力。然而，合成数据的质量和多样性直接影响模型的表现，未来在实际应用中仍需关注合成数据与真实数据的结合，以提升模型的适应性和准确性。

AETHER通过将动态重建、视频预测和动作规划整合在一个统一框架中，展现了多任务学习的协同效应。这种方法不仅提高了模型的稳定性和鲁棒性，还在不同任务之间实现了相互促进，未来在智能系统的开发中，采用类似的多任务框架可能会成为一种趋势。

尽管AETHER在动态环境中的决策能力有所提升，但面对复杂多变的现实世界，仍然存在挑战。模型的推理准确性和一致性在不同场景下可能会有所波动，因此在实际应用中，开发者需要不断优化模型以应对各种动态变化，确保其决策的可靠性。

❓

AETHER模型具备3D空间决策与规划能力，支持目标导向视觉规划、4D动态重建和动作条件视频预测。

AETHER通过引入几何空间建模，结合几何重建与生成式建模，显著提升了模型的推理准确性与一致性。

AETHER在虚拟数据上训练，能够在真实世界中实现零样本泛化，展现出强大的跨域迁移能力。

AETHER的核心技术包括目标导向视觉规划、4D动态重建和动作条件视频预测。

AETHER通过三项关键技术提升具身智能系统在动态环境中的感知、建模与决策能力。

实验表明，AETHER在动态场景重建方面达到或超过现有SOTA水平，促进了多任务框架下的任务准确度提升。

🏷️