该研究提出了一种基于Transformer架构的模型,通过新设计的CMA模块在少样本上构建多模态亲和力,解决了少样本的视频目标指代分割问题,并在实验中取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。