聚焦每种模态的价值：朝着高效和弹性的无模态语义分割

提出了一种名为 MAGIC 的新方法，通过多模态聚合模块和任意模态选择模块，灵活地配合各种主干网络，实现多模态语义分割并取得了最先进的性能，同时降低了模型参数 60%。

本研究提出了一种基于Transformer的跨模态融合架构，用于弥合多模态融合与全景场景感知之间的差距，并使用失真感知模块来处理极端对象变形和全景失真。通过跨模态交互实现特征矫正和信息交换，最终将特征合并以传达双模态和三模态特征流的长程上下文。在三个室内全景数据集中进行测试，达到了较高的性能。