小红花·文摘

该研究提出了一种基于循环神经网络和Transformer的视频多目标分割模型，结合语言和视频进行引用视频对象分割（RVOS），在多个基准测试中表现优异。引入时间感知机制和弱监督信息显著提高了时间一致性和分割精度，展示了强大的泛化能力。

释放GPT的时空推理能力以实现无训练的音频和语言参考视频物体分割

BriefGPT - AI 论文速递 ·

该研究提出了一种基于循环神经网络的视频多目标分割模型，具备零样本学习和时间连贯性，推理速度快且表现优异。通过多模态对比监督和动态过滤器等方法，显著提升了视频对象分割性能，并在多个基准测试中超越现有技术。此外，研究还提出了Segment Anything Model 2，构建了大型分割数据集，提升了视频物体分割的精度。

第二届LSVOS挑战赛RVOS赛道的解决方案：空间-时间细化以实现一致的语义分割

BriefGPT - AI 论文速递 ·