NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

神经场在计算机视觉和机器人技术中表现出色。使用神经场进行自监督预训练,生成有效的三维表示。利用NeRF的体积网格作为Transformer的输入,通过遮盖NeRF的辐射和密度网格的随机补丁,使模型学习完整场景的语义和空间结构。NeRF-MAE自监督预训练方法在各种三维任务上表现出色,提升绝对性能超过20%和8%。

🎯

关键要点

  • 神经场在计算机视觉和机器人技术中表现出色,能够理解三维视觉世界。
  • 使用神经场进行自监督预训练,生成有效的三维表示。
  • 通过遮盖的自动编码器从RGB图像生成三维表示,并将其应用于NeRF进行训练。
  • 利用NeRF的体积网格作为Transformer的密集输入,与其他三维表示进行对比。
  • 通过相机轨迹采样提取显式表示,以规范化不同域中的场景。
  • 遮盖NeRF的辐射和密度网格的随机补丁,使用三维Swin Transformer重建补丁,学习完整场景的语义和空间结构。
  • 在超过160万幅图像上进行规模化预训练,编码器可用于有效的三维迁移学习。
  • NeRF-MAE自监督预训练方法在各种三维任务上表现出色,AP50和AP25绝对性能提升超过20%和8%。
➡️

继续阅读