小红花·文摘

该研究提出了一种基于循环神经网络和Transformer的视频多目标分割模型，结合语言和视频进行引用视频对象分割（RVOS），在多个基准测试中表现优异。引入时间感知机制和弱监督信息显著提高了时间一致性和分割精度，展示了强大的泛化能力。