OpenOcc:基于占据表示的开放词汇量三维场景重建

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了OpenOcc,一种将3D场景重建和开放词汇理解与神经辐射场结合的新型框架。通过占位表示法对场景的几何结构进行建模,并通过体素渲染将预训练的开放词汇模型蒸馏为3D语言场,以实现零-shot推理。实验证明,我们的方法在3D场景理解任务中取得了有竞争力的性能。

🎯

关键要点

  • 提出了OpenOcc框架,将3D场景重建与开放词汇理解结合。
  • 使用占位表示法建模场景几何结构。
  • 通过体素渲染将预训练的开放词汇模型蒸馏为3D语言场,实现零-shot推理。
  • 提出了一种新颖的语义感知置信度传播(SCP)方法,解决语言场表示退化问题。
  • 实验结果表明,该方法在3D场景理解任务中表现出竞争力,尤其是在小物体和长尾物体的识别上。
➡️

继续阅读