量子位 ·

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

大模型通过三阶段训练框架提升空间思考能力，在视觉推理任务上平均提高18.4%，展现类人推理策略，推动视觉智能发展。

🎯

关键要点

大模型通过三阶段训练框架提升空间思考能力，平均提高18.4%。
视觉推理正在从'视觉转文本'向'Thinking with Images'转变。
ViLaSR-7B模型在迷宫导航、静态图像理解和视频空间推理等任务上表现优异。
三阶段训练框架包括冷启动训练、反思拒绝采样和强化学习。
反思拒绝采样机制增强了模型的自我修正能力。
ViLaSR-7B展现出类人空间推理策略，如基于参考物的度量推理和系统性的跨帧对象追踪。
该研究为机器人导航和虚拟助手等领域的空间智能奠定基础。

❓

延伸问答

ViLaSR-7B模型的主要创新是什么？

ViLaSR-7B模型通过“边画边想”的方式，结合绘图操作与多模态推理，显著提升了空间推理能力。

三阶段训练框架的具体步骤是什么？

三阶段训练框架包括冷启动训练、反思拒绝采样和强化学习，逐步培养模型的空间理解与推理能力。

ViLaSR-7B在视觉推理任务上的表现如何？

ViLaSR-7B在五个主要空间推理基准上平均提升了18.4%，在VSI-Bench上达到了45.4%的准确率。

反思拒绝采样机制的作用是什么？

反思拒绝采样机制增强了模型的自我修正能力，帮助模型识别并调整错误的推理路径。

为什么视觉推理需要从“视觉转文本”转变为“Thinking with Images”？

这种转变可以更好地保留关键的细节信息和时空信息，避免传统方法中的信息损失问题。

ViLaSR-7B模型在空间推理中展现了哪些类人策略？

模型展现了基于参考物的度量推理和系统性的跨帧对象追踪等类人空间推理策略。

🏷️

继续阅读

大模型企业扎堆IPO：智谱MiniMax冲刺A股，Anthropic抢先OpenAI递表
2026年6月，全球人工智能市场迎来大模型上市热潮。中国智谱与MiniMax启动A股IPO，美国Anthropic也向SEC提交上市申请。智谱计划募资15...
GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上正式可用
亚马逊云科技宣布，GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上线，企业可直接调用这些大模型以支持复杂任务，计费标准与Ope...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
2026年构建应用的顶级代理框架
2026年，人工智能领域迅速发展，代理框架成为现代应用架构的重要组成部分。Python开发者依赖LangChain、LangGraph和AutoGen等框...
字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...
Elly推出AI招聘助手，将对话式招聘和外联整合到一个招聘系统中
AI原生招聘平台Elly推出了AI Sourcer，旨在通过集成对话式人才搜寻和拓展工作流程，减少招聘过程中的人工工作量。该系统整合了电子邮件和Linke...