浙江大学等团队提出了ViewSpatial-Bench基准,用于评估视觉语言模型的空间推理能力。该基准包含5700个问答对,涵盖多视角任务,显示当前模型在空间理解方面的不足。研究开发的MVSM模型在性能上显著提升,推动AI系统向类人空间认知能力发展。
本研究探讨了视觉语言模型在简单空间认知中的不足,开发了名为TableTest的基准数据集进行测试。结果表明,逻辑描述的微小变化显著影响模型表现,揭示了其在推理空间关系方面的局限性。
本研究探讨大型语言模型(LLM)在导航和城市规划等领域的空间智能应用,分析人类空间认知与推理的关系,提出从空间记忆到推理的整体框架,促进跨学科研究。
群核科技在GTC2025大会上开源了空间理解模型SpatialLM,旨在提升机器的空间认知能力。该模型基于大语言模型,能够从视频生成3D场景布局,支持自然语言描述和场景交互。SpatialLM为具身智能领域提供基础训练框架,降低训练门槛,并与空间智能平台SpatialVerse协同,推动数字仿真与物理现实的结合。
群核科技在GTC2025大会上开源了空间理解模型SpatialLM,突破了传统大语言模型的局限,赋予机器空间认知能力。该模型能够通过视频生成3D场景布局,支持企业微调,降低训练门槛,并与空间智能平台SpatialVerse协同,推动具身智能机器人发展。
我们提出了SPACE基准,用于评估前沿模型的空间认知能力。该基准基于认知科学研究,考察大规模地图能力、小规模物体形状推理以及空间注意力和记忆等认知基础。结果表明,现代模型在空间智能方面的表现不及动物,且在经典动物认知测试中接近随机水平。
完成下面两步后,将自动完成登录并继续当前操作。