该研究提出了一种基于循环神经网络和Transformer的视频多目标分割模型,结合语言和视频进行引用视频对象分割(RVOS),在多个基准测试中表现优异。引入时间感知机制和弱监督信息显著提高了时间一致性和分割精度,展示了强大的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。