通过 3D 感知的微调改进 2D 特征表示

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究发现,微调3D感知数据可以提高视觉基础模型对物体和场景三维结构的理解。通过将语义2D特征转换为高效的3D高斯表示,并使用渲染的3D感知特征设计微调策略,研究者发现微调的模型可以提高语义分割和深度估计等下游任务的性能。虽然只在一个室内数据集上进行了微调,但性能提升适用于各种室内数据集和领域外数据集。研究鼓励社区在训练2D基础模型时考虑注入3D感知性。

🎯

关键要点

  • 微调3D感知数据可以提高视觉基础模型对物体和场景三维结构的理解。
  • 研究将语义2D特征转换为高效的3D高斯表示,以便在任意视角重新渲染。
  • 设计了一种微调策略,将3D感知性转移至2D基础模型。
  • 微调后的模型在语义分割和深度估计等下游任务中性能提升显著。
  • 尽管只在一个室内数据集上进行了微调,但性能提升适用于各种室内数据集和领域外数据集。
  • 研究鼓励社区在训练2D基础模型时考虑注入3D感知性。
➡️

继续阅读