量子位 ·

5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大&成电&港中文

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

浙江大学等团队提出了ViewSpatial-Bench基准，用于评估视觉语言模型的空间推理能力。该基准包含5700个问答对，涵盖多视角任务，显示当前模型在空间理解方面的不足。研究开发的MVSM模型在性能上显著提升，推动AI系统向类人空间认知能力发展。

🎯

关键要点

浙江大学等团队提出了ViewSpatial-Bench基准，用于评估视觉语言模型的空间推理能力。
该基准包含5700个问答对，涵盖多视角任务，显示当前模型在空间理解方面的不足。
MVSM模型在性能上显著提升，推动AI系统向类人空间认知能力发展。
ViewSpatial-Bench评估集中包含5700个问答对，涵盖相机视角与人类视角两种框架下的五种空间定位识别任务。
研究团队基于ScanNet和MS-COCO开发了完整的自动化数据构建流水线，确保数据质量。
当前视觉语言模型在多视角空间定位任务上表现不佳，缺乏空间感与换位思考能力。
MVSM模型通过针对性训练实现了46.24%的性能提升，验证了其在空间认知方面的有效性。
MVSM在VSI-Bench和VSI-App测试中表现优异，证明其能够处理动态轨迹和人机交互场景。
ViewSpatial-Bench和MVSM为多模态模型的空间理解能力提供了系统评估工具，重构了视角采择的建模方式。

❓

延伸问答

ViewSpatial-Bench基准的主要目的是什么？

ViewSpatial-Bench基准旨在评估视觉语言模型的空间推理能力，特别是在多视角任务中的表现。

MVSM模型相比于其他模型有什么显著提升？

MVSM模型在ViewSpatial-Bench上实现了46.24%的性能提升，验证了其在空间认知方面的有效性。

ViewSpatial-Bench包含多少个问答对？

ViewSpatial-Bench包含5700个问答对，涵盖多种空间定位识别任务。

当前视觉语言模型在空间理解方面存在哪些不足？

当前视觉语言模型在多视角空间定位任务上表现不佳，缺乏空间感与换位思考能力。

MVSM模型是如何提高空间理解能力的？

MVSM模型通过自动化空间标注框架生成多样化的空间关系样本，进行系统性优化。

ViewSpatial-Bench的评估任务包括哪些类型？

评估任务包括物体相对方向识别和人物视线方向识别等，涵盖相机视角与人类视角两种框架。

🏷️

继续阅读

Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
Neurovia AI以官方合作伙伴身份出席第三届阿联酋政府网络安全峰会
Neurovia AI作为阿联酋政府网络安全峰会的官方合作伙伴，专注于AI时代的视觉智能基础设施。首席技术官Mansoor Ali Khan将探讨数据架构...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...