Lang3DSG: 基于语言的对比预训练用于 3D 场景图预测

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文提出了一种新颖的三维场景感知方法 Model2Scene,通过从 CAD 模型和语言中学习自由的三维场景表示来解决大规模标注的点云获取费时费力的问题。实验证实了学习到的三维场景表示对各种下游任务的益处,包括无标签三维物体显著目标检测、标签高效三维场景感知和零样本三维语义分割。

🎯

关键要点

  • 当前三维场景感知方法依赖于大规模标注的点云,获取过程费时费力。

  • 提出了一种新颖的三维场景感知方法 Model2Scene,从 CAD 模型和语言中学习三维场景表示。

  • 主要挑战是 CAD 模型与真实场景对象之间的领域差异。

  • Model2Scene 通过混合数据增强的 CAD 模型模拟拥挤场景来应对领域差异。

  • 提出了深凸包正则化 (DCR) 特征正则化操作,减小领域差距。

  • 对 CAD 模型的语言嵌入和点特征进行对比损失的预训练,形成 3D 网络。

  • 实验证实学习到的三维场景表示对无标签三维物体显著目标检测等下游任务的益处。

  • Model2Scene 在 ScanNet 和 S3DIS 数据集上实现了令人印象深刻的无标签三维物体显著目标检测,平均 mAP 分别为 46.08% 和 55.49%。

  • 代码将公开提供。

➡️

继续阅读