量子位 ·

入选ECCV 2026！清华开源空间模型打败Gemini：真正的空间智能是在世界变化中持续学习

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

研究团队提出了Spatial-TTT模型，旨在解决多模态模型在动态环境中持续更新空间记忆的问题。该模型通过在线更新机制，能够处理长达120分钟的视频流，显著提升空间智能表现。实验结果表明，Spatial-TTT在多个基准测试中超越现有模型，展现出更强的空间推理能力和效率，推动了流式视觉感知向持续世界状态建模的进展。

🎯

关键要点

研究团队提出了Spatial-TTT模型，旨在解决多模态模型在动态环境中持续更新空间记忆的问题。
Spatial-TTT能够处理长达120分钟的视频流，显著提升空间智能表现。
该模型在多个基准测试中超越现有模型，展现出更强的空间推理能力和效率。
Spatial-TTT通过在线更新机制，持续形成并更新空间记忆，而不是依赖一次性长上下文处理。
模型设计包括混合式TTT架构、空间预测机制和稠密场景描述监督，以增强空间理解能力。
实验结果显示，Spatial-TTT在多个空间智能基准上取得了优异表现，尤其在长时间视频处理上表现稳定。
Spatial-TTT为长期连续运行的物理代理系统提供了一种新的空间记忆理解方式，能够在动态环境中积累和利用空间经验。

🔎

延伸解读

空间智能的持续学习

Spatial-TTT模型的核心在于其在线更新机制，使得模型能够在动态环境中不断更新空间记忆。这种能力对于机器人和自动驾驶等应用至关重要，因为它们需要在长时间内积累和利用空间经验，而不是依赖一次性的信息处理。

模型设计的创新

Spatial-TTT通过混合式TTT架构和空间预测机制，解决了传统模型在处理长视频时的局限性。其设计不仅提高了空间理解能力，还确保了在长时间视频流中保持高效的计算性能，这为未来的多模态应用提供了新的思路。

实验结果的显著性

实验表明，Spatial-TTT在多个空间智能基准测试中超越了现有的闭源模型，如Gemini-3-pro。这一成果不仅展示了其在空间推理能力上的优势，也为未来的研究提供了重要的参考，尤其是在处理长时程视频时的稳定性和效率。

❓

延伸问答

Spatial-TTT模型的主要目标是什么？

Spatial-TTT模型旨在解决多模态模型在动态环境中持续更新空间记忆的问题。

Spatial-TTT模型在处理视频流时有什么优势？

Spatial-TTT能够处理长达120分钟的视频流，显著提升空间智能表现。

Spatial-TTT模型如何实现空间记忆的在线更新？

该模型通过在线更新机制，持续形成并更新空间记忆，而不是依赖一次性长上下文处理。

Spatial-TTT在基准测试中的表现如何？

实验结果显示，Spatial-TTT在多个空间智能基准上超越现有模型，展现出更强的空间推理能力和效率。

Spatial-TTT模型的设计包含哪些关键元素？

模型设计包括混合式TTT架构、空间预测机制和稠密场景描述监督，以增强空间理解能力。

Spatial-TTT模型对物理代理系统有什么意义？

Spatial-TTT为长期连续运行的物理代理系统提供了一种新的空间记忆理解方式，能够在动态环境中积累和利用空间经验。

🏷️