利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割

通过采用大规模预训练模型、计算机视觉和 2D 任务，本研究提出了一种新的框架来解决 3D 点云分割任务，通过将 2D 语义分割预测投影到 3D 空间，并引入语义标签融合策略，实现了在扩展的数据集上的 3D 场景理解。

研究开发了基于便宜的输入提示的Segment Anything Model（SAM），可在输入的图像中分割对象。SAM在大量基准任务中研究，发现其零样本图像分割准确性通常与训练的视觉模型类似。但在航空图像问题中，由于独特特征，SAM在某些情况下会失败。