量子位 ·

1段视频=亿万虚拟场景！群核开源空间理解多模态模型，真实世界秒变机器人训练场

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

群核科技在GTC2025大会上开源了空间理解模型SpatialLM，旨在提升机器的空间认知能力。该模型基于大语言模型，能够从视频生成3D场景布局，支持自然语言描述和场景交互。SpatialLM为具身智能领域提供基础训练框架，降低训练门槛，并与空间智能平台SpatialVerse协同，推动数字仿真与物理现实的结合。

🎯

关键要点

群核科技在GTC2025大会上开源了空间理解模型SpatialLM。
SpatialLM是一个基于大语言模型的3D场景语义生成框架，提升机器的空间认知能力。
该模型能够从视频生成物理正确的3D场景布局，支持自然语言描述和场景交互。
SpatialLM为具身智能领域提供基础训练框架，降低训练门槛。
SpatialLM模型已在HuggingFace、GitHub等平台开源，面向全球开发者。
SpatialLM的独特之处在于其通用性、自然语言输出和对空间信息的认知理解。
群核科技希望通过SpatialLM和SpatialVerse平台推动数字仿真与物理现实的结合。
SpatialVerse与SpatialLM协同合作，打通现实与虚拟的闭环路径。
群核科技董事长黄晓煌表示，具身智能机器人的发展需要算力、算法、工程和训练数据的协同进化。
群核科技已与多家国内外具身智能企业达成合作，推动技术基座建设。

🔎

延伸解读

空间理解模型的创新意义

SpatialLM模型的推出标志着机器空间认知能力的重大突破。与传统模型相比，它不仅能从视频中生成3D场景布局，还能理解空间信息的结构化描述。这为具身智能领域提供了更为灵活和高效的训练框架，尤其适合那些缺乏开发能力的企业。

开源对行业的影响

SpatialLM的开源将促进全球开发者的参与，推动具身智能技术的快速发展。通过在HuggingFace和GitHub等平台的发布，开发者可以根据自身需求对模型进行微调，降低了技术门槛，促进了创新和应用的多样性。

数字仿真与物理现实的结合

SpatialLM与SpatialVerse的协同工作，构建了一个从现实到虚拟再回到现实的闭环。这种结合不仅提升了机器人在仿真环境中的训练效果，还为未来的具身智能机器人提供了更为真实的训练场景，推动了数字仿真技术的发展。

❓

延伸问答

SpatialLM模型的主要功能是什么？

SpatialLM模型能够从视频生成物理正确的3D场景布局，并支持自然语言描述和场景交互。

群核科技在GTC2025大会上发布了什么重要技术？

群核科技在GTC2025大会上开源了空间理解模型SpatialLM。

SpatialLM模型如何降低具身智能的训练门槛？

SpatialLM为具身智能领域提供基础训练框架，企业可以针对特定场景对其进行微调，从而降低训练门槛。

SpatialLM与SpatialVerse之间有什么关系？

SpatialLM与SpatialVerse协同合作，打通现实与虚拟的闭环路径，共同推动数字仿真与物理现实的结合。

SpatialLM模型的独特之处是什么？

SpatialLM的独特之处在于其通用性、自然语言输出和对空间信息的认知理解，能够使用普通相机和手机的视频作为输入。

群核科技董事长对具身智能机器人的发展有何看法？

群核科技董事长黄晓煌认为，具身智能机器人的发展需要算力、算法、工程和训练数据的协同进化，并期待行业共同推动技术基座建设。

🏷️