将 NeRFs 引入潜在空间:逆图形自编码器
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
神经场在计算机视觉和机器人技术中表现优异,通过自监督预训练生成三维表示。我们使用遮盖的自动编码器和三维Swin Transformer提取场景的显式表示。预训练后,模型在三维任务上表现出色,AP50和AP25性能分别提升超过20%和8%。
🎯
关键要点
- 神经场在计算机视觉和机器人技术中表现出色,能够理解三维视觉世界。
- 使用遮盖的自动编码器从RGB图像生成有效的三维表示。
- 将标准的三维视觉Transformer应用于NeRF进行特定训练。
- 利用NeRF的体积网格作为Transformer的密集输入,与其他三维表示进行对比。
- 通过相机轨迹采样提取显式表示,规范化不同域中的场景。
- 目标是通过遮盖NeRF的辐射和密度网格的随机补丁,重建补丁以学习完整场景的语义和空间结构。
- 在posed-RGB数据上进行预训练,涉及超过160万幅图像。
- 预训练后,编码器可用于有效的三维迁移学习。
- NeRF-MAE自监督预训练方法在各种三维任务上表现出色。
- 在Front3D和ScanNet数据集上的三维物体检测AP50和AP25性能分别提升超过20%和8%。
➡️