细粒度图像到 LiDAR 对比蒸馏与视觉基础模型

通过利用 VFMs 的像素级语义增强三维表示学习，采用 von Mises-Fisher 分布对特征空间进行结构化，以解决对手法的挑战并在下游任务中始终优于现有的图像到 LiDAR 对比蒸馏方法。

本文介绍了一种基于图像引导网络（IGNet）的方法，通过使用RGB图像提供场景的更密集表示。该方法借鉴了2D语义分割网络中的高级特征信息，并利用一种新型混合策略FOVMix解决了两个传感器之间的水平视场不匹配问题。在ScribbleKITTI上实现了弱监督LiDAR语义分割的最先进结果，仅使用8%的标记点，无需额外的标注负担或推理中的计算/内存成本。此外，在半监督训练中也取得了有效的结果，在ScribbleKITTI和SemanticKITTI上均取得了最先进的结果。

LiDAR RGB图像半监督训练图像引导网络语义分割