💡
原文中文,约6000字,阅读约需15分钟。
📝
内容提要
研究者提出了WHALE框架,用于学习可泛化的世界模型,以增强决策能力。该框架结合行为条件和回溯滚动技术,解决了泛化和不确定性估计的挑战。实验结果表明,WHALE在模拟和现实任务中表现优异,展现出强大的泛化能力和扩展性。
🎯
关键要点
-
研究者提出了WHALE框架,用于学习可泛化的世界模型,以增强决策能力。
-
WHALE框架结合行为条件和回溯滚动技术,解决了泛化和不确定性估计的挑战。
-
WHALE框架的核心技术包括行为 - 条件和retracing-rollout。
-
Whale-ST是基于时空transformer的可扩展世界模型,旨在实现更有效的决策。
-
Whale-X是一个在970K机器人演示上预训练的414M参数世界模型,展示了强大的OOD泛化能力。
-
实验结果表明,Whale-ST在模拟任务中表现优异,具有较高的价值估计准确率和视频生成保真度。
-
retracing-rollout方法在不确定性估计方面优于其他基准方法,显著提高了模型的稳定性。
-
Whale-X在真实世界任务中表现出色,尤其在OOD泛化能力和视频生成质量方面。
-
Whale-X的扩展性强,增加模型参数或预训练数据均能提升性能。
-
Whale-ST和Whale-X能够生成高保真度的视频轨迹,保持视频质量和一致性。
➡️