细粒度图像到 LiDAR 对比蒸馏与视觉基础模型

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种基于图像引导网络(IGNet)的方法,通过使用RGB图像提供场景的更密集表示。该方法借鉴了2D语义分割网络中的高级特征信息,并利用一种新型混合策略FOVMix解决了两个传感器之间的水平视场不匹配问题。在ScribbleKITTI上实现了弱监督LiDAR语义分割的最先进结果,仅使用8%的标记点,无需额外的标注负担或推理中的计算/内存成本。此外,在半监督训练中也取得了有效的结果,在ScribbleKITTI和SemanticKITTI上均取得了最先进的结果。

🎯

关键要点

  • 提出了一种基于图像引导网络(IGNet)的方法,利用RGB图像提供更密集的场景表示。

  • 该方法借鉴了2D语义分割网络中的高级特征信息,并使用FOVMix策略解决传感器之间的视场不匹配问题。

  • 在ScribbleKITTI上实现了弱监督LiDAR语义分割的最先进结果,仅使用8%的标记点。

  • 该方法无需额外的标注负担或推理中的计算/内存成本。

  • 在半监督训练中,IGNet在ScribbleKITTI和SemanticKITTI上也取得了最先进的结果。

➡️

继续阅读