Lang3DSG: 基于语言的对比预训练用于 3D 场景图预测

我们提出了第一个针对 3D 场景图的基于语言的预训练方法，利用了场景图和语言之间的强关联，通过对比性预训练将文本嵌入关系和预测的 3D 图特征进行对齐，最终实现了在主要语义 3D 场景图基准上的效果最优，超过现有全监督场景图预测方法的显著边缘，并且由于场景图特征与语言对齐，允许我们以零样本的方式查询特征的语言空间。

本文提出了一种新颖的三维场景感知方法 Model2Scene，通过从 CAD 模型和语言中学习自由的三维场景表示来解决大规模标注的点云获取费时费力的问题。实验证实了学习到的三维场景表示对各种下游任务的益处，包括无标签三维物体显著目标检测、标签高效三维场景感知和零样本三维语义分割。

CAD模型三维场景感知点云获取物体检测语义分割