基于文本到图像扩散模型的开放词汇 3D 语义分割

本文提出了一种名为 Diff2Scene 的新颖方法，利用大规模图像 - 文字对预训练的扩散模型以及敏感感知和几何感知的掩模，实现了开放词汇的 3D 语义分割和视觉定位任务，从而有效消除了任何标记的 3D 数据并能够准确地识别出 3D 场景中的物体、外观、材料、位置及其组成部分，并相较于现有方法在 ScanNet200 上取得了 12% 的显著提升。

最近的研究发现，利用预训练的文本-图像判别模型可以解决开放词汇语义分割的挑战。然而，研究人员提出了一种名为DiffSegmenter的无需训练的新方法，通过扩散模型生成注释数据或提取特征来促进语义分割。实验证明，DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。

DiffSegmenter 开放词汇扩散模型特征提取语义分割预训练模型