该研究提出了一种基于循环神经网络和Transformer的视频多目标分割模型,结合语言和视频进行引用视频对象分割(RVOS),在多个基准测试中表现优异。引入时间感知机制和弱监督信息显著提高了时间一致性和分割精度,展示了强大的泛化能力。
该研究提出了一种基于循环神经网络的视频多目标分割模型,具备零样本学习和时间连贯性,推理速度快且表现优异。通过多模态对比监督和动态过滤器等方法,显著提升了视频对象分割性能,并在多个基准测试中超越现有技术。此外,研究还提出了Segment Anything Model 2,构建了大型分割数据集,提升了视频物体分割的精度。
完成下面两步后,将自动完成登录并继续当前操作。