机器之心 ·

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

SpatialBot是一个通过对RGB-Depth的理解来实现空间概念理解的模型。作者提出了SpatialQA数据集，逐步引导模型理解深度图和使用深度信息。SpatialBot在通用场景和具身场景中表现良好。

🎯

关键要点

SpatialBot是一个通过RGB-Depth理解空间概念的模型。
作者提出了SpatialQA数据集，逐步引导模型理解深度图和使用深度信息。
SpatialBot在通用场景和具身场景中表现良好。
第一作者为斯坦福大学研究生蔡闻骁，研究兴趣为多模态大模型和具身智能。
李飞飞提出空间智能概念，研究者们共同开发了SpatialBot和相关数据集。
SpatialBot在具身智能任务中能够准确判断机械爪与目标物体的深度关系。
深度相机相较于点云和双目相机更具性价比，适合用于空间大模型的输入。
现有模型无法直接理解深度图，需要专门设计任务引导模型理解深度信息。
SpatialQA数据集分为三个层次，逐步引导模型理解深度图和使用深度信息。
SpatialBot通过API获取准确的深度信息，准确率超过99%。
SpatialBot使用毫米级的metric depth编码深度图，保留所有深度信息。
SpatialBot在多个基于LLM的任务中展示了显著的效果提升。
数据标注包括空间理解问题和具身任务中的重要问题，使用GPT辅助标注。
训练集SpatialQA包含深度图理解、空间关系理解和机器人场景理解。

❓

延伸问答

SpatialBot模型的主要功能是什么？

SpatialBot模型通过对RGB-Depth的理解，实现空间概念的理解，能够准确判断机械爪与目标物体的深度关系。

SpatialQA数据集的结构是怎样的？

SpatialQA数据集分为三个层次，分别引导模型理解深度图、将深度与RGB对齐，以及设计多个深度相关任务。

SpatialBot在具身智能任务中的表现如何？

SpatialBot在具身智能任务中表现良好，能够准确判断机械爪与目标物体的深度关系，准确率超过99%。

为什么深度相机在空间大模型中更具性价比？

深度相机价格适中，使用范围广，相比点云和双目相机更易于使用且不需要频繁校准。

SpatialBot如何获取准确的深度信息？

SpatialBot通过API获取准确的深度信息，并在必要时调用DepthAPI来获取物体的深度值。

SpatialBot在通用场景中的效果如何？

SpatialBot在通用场景中展示了显著的效果提升，基于多个LLM的训练，能够在常用数据集上表现出色。

🏷️

标签

RGB-Depth SpatialBot SpatialQA数据集北大李飞飞深度信息空间概念

➡️

继续阅读

高通和 IDC 说，智能眼镜会是手机之外，最重要的 AI 设备
AI 将会成功智能设备的基础能力。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
李飞飞的世界模型，终于开始训练机器人了
李飞飞老师的World Labs，补了块关键拼图
中之杰智能发布德沃克X-Agent工业智能体“三剑客”产品矩阵
(全球TMT 2026年07月30日讯)浙江中之杰智能系统有限公司正式发布德沃克X-Agent工业智能体“三剑 […]
智能设计论经同行评审发布：自上而下的设计 vs. 自下而上的涌现
由四位支持智能设计论的科学家——Emily Reeves（生物化学博士）、Brian Miller（物理学博士）、Jonathan McLatchie（进...
Transform any place with Nano Banana in Google Earth
A hero image with example queries is shown.
7 Machine Learning Algorithms That Still Matter
Discover 7 essential machine learning algorithms that every data scientist sh...