爱范儿 ·

李飞飞世界模型大更新！实时生成 3D 世界，只要一块 GPU

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

李飞飞的实验室推出了RTFM技术，能够实时生成3D世界模型。与传统模型不同，RTFM可以从一张图片生成可交互场景，并且仅需一块H100 GPU高效运行。该技术通过学习大量视频数据，具备复杂的视觉效果和空间记忆，允许用户在生成的世界中持续互动。

🎯

🔎

RTFM技术的推出标志着3D世界生成领域的一次重大突破。与传统模型依赖复杂的图形学知识不同，RTFM通过学习视频数据直接生成可交互场景，展现了AI在视觉理解和空间感知方面的进步。这种创新不仅提高了生成效率，也为未来的虚拟现实应用奠定了基础。

RTFM的实时生成能力使得用户可以在生成的3D世界中自由探索，这为游戏和虚拟现实体验带来了新的可能性。尽管目前Demo体验时间有限，但随着技术的进一步发展，未来可能实现更长时间的交互和更复杂的场景生成，提升用户的沉浸感。

尽管RTFM在单个H100 GPU上实现了高效运行，但其高昂的硬件成本仍然是普及的障碍。随着算力价格的下降和算法的优化，未来可能会有更多用户能够接触到这一技术，从而推动3D世界生成的广泛应用。

❓

RTFM技术能够实时生成可供用户交互的3D世界模型，从一张图片开始渲染出可探索的场景。

RTFM技术仅需一块H100 GPU即可高效运行。

RTFM不构建显式的3D模型，而是通过学习视频帧序列直接预测空间规律。

RTFM引入了空间记忆机制，使生成的世界具备持续存在的能力，允许用户反复进入和离开而不增加计算负担。

随着算力价格下降和算法优化，RTFM可能实现更完整的世界模型，提供更高保真度的交互体验。

目前RTFM的Demo体验时间为3分钟，之后会忘记生成的世界。

🏷️