小红花·文摘

本文提出了一种基于Transformer架构的简单而有效的模型，通过新设计的跨模态亲和力（CMA）模块在少样本上构建多模态亲和力，快速学习新的语义信息，并使模型适应不同场景。该模型为少样本的视频目标指代分割（FS-RVOS）问题提供了解决方案。在新建立的FS-RVOS基准上进行了广泛实验，结果显示该模型在少样本的情况下能很好地适应不同场景，达到了基准上的最先进性能。