李飞飞发布全新世界模型,单GPU就能跑!

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

李飞飞推出的新模型RTFM可在单张H100 GPU上实时运行,具备持久性和3D一致性。该模型采用自回归扩散变换器架构,能够从2D图像生成新视图,支持无限时长的交互,推动生成式世界建模的发展。

🎯

关键要点

  • 李飞飞推出的新模型RTFM可在单张H100 GPU上实时运行,具备持久性和3D一致性。
  • RTFM采用自回归扩散变换器架构,能够从2D图像生成新视图,支持无限时长的交互。
  • 该模型设计遵循效率、可扩展性和持久性三大核心原则。
  • 生成式世界模型对算力的需求将远超当前大型语言模型,需处理的上下文token将突破1亿。
  • 李飞飞团队的目标是设计一款高效、可立即部署的生成式世界模型。
  • RTFM通过训练单一神经网络,无需构建显式3D表征即可生成新视图。
  • RTFM模糊了重建与生成之间的界限,能够在不同输入视角下执行不同任务。
  • 模型通过将每一帧建模为具有姿态的空间记忆,解决了持久性的问题。
  • RTFM的上下文切换技术使得模型在长时间交互中保持对大型世界的持久记忆。
  • 该模型现已以预览版形式开放体验。
➡️

继续阅读