基于文本到图像扩散模型的开放词汇 3D 语义分割
原文中文,约500字,阅读约需2分钟。发表于: 。本文提出了一种名为 Diff2Scene 的新颖方法,利用大规模图像 - 文字对预训练的扩散模型以及敏感感知和几何感知的掩模,实现了开放词汇的 3D 语义分割和视觉定位任务,从而有效消除了任何标记的 3D 数据并能够准确地识别出 3D 场景中的物体、外观、材料、位置及其组成部分,并相较于现有方法在 ScanNet200 上取得了 12% 的显著提升。
最近的研究发现,利用预训练的文本-图像判别模型可以解决开放词汇语义分割的挑战。然而,研究人员提出了一种名为DiffSegmenter的无需训练的新方法,通过扩散模型生成注释数据或提取特征来促进语义分割。实验证明,DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。