「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

斯坦福大学李飞飞团队推出了首个空间智能模型,能够通过单张图片生成3D世界。国内智源研究院的See3D模型则利用无标注互联网视频生成3D图像,支持多种生成和编辑任务,展现出广泛的应用潜力。

🎯

关键要点

  • 斯坦福大学李飞飞团队推出首个空间智能模型,通过单张图片生成3D世界。

  • 智源研究院推出See3D模型,利用无标注互联网视频生成3D图像。

  • See3D模型采用视觉条件技术,生成相机方向可控且几何一致的多视角图像。

  • See3D支持零样本和开放世界的3D生成,无需微调即可执行3D编辑和表面重建。

  • See3D支持从文本、单视图和稀疏视图到3D的生成,展现广泛的应用潜力。

  • See3D的研究动机是解决现有3D数据采集成本高、规模有限的问题。

  • See3D通过视频中的多视图信息学习3D结构,避免直接建模几何形态。

  • See3D提供高质量、多样化的大规模多视角图像数据集WebVi3D。

  • See3D引入新的视觉条件,通过时间依赖噪声生成2D归纳视觉信号。

  • See3D的优势包括数据扩展性、相机可控性和几何一致性。

  • See3D为突破3D生成技术瓶颈提供新思路,支持多种3D创作应用。

➡️

继续阅读