量子位 ·

李飞飞发布全新世界模型，单GPU就能跑！

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

李飞飞推出的新模型RTFM可在单张H100 GPU上实时运行，具备持久性和3D一致性。该模型采用自回归扩散变换器架构，能够从2D图像生成新视图，支持无限时长的交互，推动生成式世界建模的发展。

🎯

关键要点

李飞飞推出的新模型RTFM可在单张H100 GPU上实时运行，具备持久性和3D一致性。
RTFM采用自回归扩散变换器架构，能够从2D图像生成新视图，支持无限时长的交互。
该模型设计遵循效率、可扩展性和持久性三大核心原则。
生成式世界模型对算力的需求将远超当前大型语言模型，需处理的上下文token将突破1亿。
李飞飞团队的目标是设计一款高效、可立即部署的生成式世界模型。
RTFM通过训练单一神经网络，无需构建显式3D表征即可生成新视图。
RTFM模糊了重建与生成之间的界限，能够在不同输入视角下执行不同任务。
模型通过将每一帧建模为具有姿态的空间记忆，解决了持久性的问题。
RTFM的上下文切换技术使得模型在长时间交互中保持对大型世界的持久记忆。
该模型现已以预览版形式开放体验。

❓

延伸问答

RTFM模型的主要特点是什么？

RTFM模型具备实时运行、持久性和3D一致性，且仅需单张H100 GPU即可运行。

RTFM模型如何处理持久性问题？

RTFM通过将每一帧建模为具有姿态的空间记忆，解决了持久性的问题，确保用户可以无限时长与模型交互。

RTFM模型的架构有什么创新之处？

RTFM采用自回归扩散变换器架构，通过训练单一神经网络，无需构建显式3D表征即可生成新视图。

生成式世界模型对算力的需求如何？

生成式世界模型的算力需求将远超当前大型语言模型，需处理的上下文token将突破1亿。

RTFM模型的上下文切换技术有什么作用？

上下文切换技术使得RTFM在长时间交互中保持对大型世界的持久记忆，优化了生成新帧的过程。

RTFM模型的预览版何时开放体验？

RTFM模型的预览版已于即日起开放体验，用户可以立即试用。

🏷️

继续阅读

我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B
DigitalOcean推出DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B，优化了硬件和软件，提升了推理速度和效率，满足...
亚马逊云科技大幅扩展与OpenAI的合作伙伴关系
亚马逊云科技宣布与OpenAI扩大合作，推出最新的OpenAI模型和编程Agent Codex，支持企业软件开发。新产品通过Amazon Bedrock提...
在日常设备上实现隐私保护的人工智能训练
麻省理工学院的研究人员开发了一种新方法，提升了联邦学习的效率，使其在资源有限的设备上更快地训练人工智能模型。该方法通过减少内存需求和通信负担，加速训练过程...
开放媒体联盟发布多边形网格编码标准参考软件
开放媒体联盟（AOMedia）发布了多边形网格编码（PMC）标准的参考软件，旨在提高3D物体的压缩效率，预计比现有技术提高20%至40%。该软件供开发者测...
亚马逊在产品页面上推出 AI 语音对话功能
亚马逊推出了新的AI功能“加入聊天”，用户可以实时向卖家提问并获得语音回复，旨在节省顾客时间并提供关键产品信息，模拟与实体店员工的对话体验。用户可通过“收...
MediaKind分享多视图部署最新进展
MediaKind的云原生多视图功能在北美持续扩展，Charter为2026年NCAA篮球锦标赛推出该服务，用户可同时观看多场比赛。该功能在“疯狂三月”期...