机器之心 ·

「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

斯坦福大学李飞飞团队推出了首个空间智能模型，能够通过单张图片生成3D世界。国内智源研究院的See3D模型则利用无标注互联网视频生成3D图像，支持多种生成和编辑任务，展现出广泛的应用潜力。

🎯

🔎

See3D模型通过全新的视觉条件技术，利用无标注视频生成3D图像，避免了传统方法对相机参数的依赖。这种创新使得3D生成更加高效，尤其是在数据采集成本高昂的情况下，See3D提供了一种可行的解决方案。

See3D不仅支持从文本和单视图生成3D图像，还能进行3D编辑和表面重建。这种多功能性使其在游戏开发、虚拟现实和建筑设计等领域具有广泛的应用潜力，能够满足不同用户的需求。

See3D构建的WebVi3D数据集涵盖了来自1600万个视频片段的3.2亿帧图像，具有极高的扩展性。随着互联网视频的不断增加，数据集将持续扩充，为模型提供更多的训练数据，从而提升其性能和适用性。

❓

See3D模型能够利用无标注互联网视频生成3D图像，支持多种生成和编辑任务。

See3D通过利用易获取的互联网视频，避免了昂贵的3D或相机标注，从而降低了数据采集成本。

See3D支持从文本、单视图和稀疏视图到3D的生成，能够执行3D编辑和表面重建。

See3D的优势包括数据扩展性、相机可控性和几何一致性，能够生成高质量的多视角图像。

See3D通过视频中的多视图信息学习3D结构，生成相机方向可控且几何一致的多视角图像。

See3D的研究背景是现有3D数据采集方法成本高、规模有限，难以满足大规模应用需求。

🏷️