研究团队提出了Spatial-TTT模型,旨在解决多模态模型在动态环境中持续更新空间记忆的问题。该模型通过在线更新机制,能够处理长达120分钟的视频流,显著提升空间智能表现。实验结果表明,Spatial-TTT在多个基准测试中超越现有模型,展现出更强的空间推理能力和效率,推动了流式视觉感知向持续世界状态建模的进展。
完成下面两步后,将自动完成登录并继续当前操作。