本研究解决了在大图上学习表示的效率问题,挑战在于现有变换器模型通常过于复杂且层数过多。提出的SGFormer简化了模型架构,通过单层全局注意力实现线性缩放,并保持了表示学习的能力。研究表明,SGFormer在中等规模图上具有显著的推理加速效果,尤其在标记数据有限的情况下依然表现出竞争力。
该研究使用变形补丁嵌入和变形MLP结合传输学习方法,将针孔相机图像和360度环视视觉的语义注释结合起来,实现全景图像的稳健分割。该方法在Stanford2D3D数据集中,不需要超过1400个标记化全景图像的情况下,保持了可比的性能。在室外DensePASS数据集中,该方法使mIoU提高了14.39%,达到了56.38%的新标准。
完成下面两步后,将自动完成登录并继续当前操作。