本研究提出了一种基于预训练视觉-语言模型的视频目标分割方法,重点增强跨模态特征交互。通过运动表达引导,开发了MeViS数据集,并在PVUW挑战赛中取得优异成绩。研究分析了静态数据和帧采样的有效性,提出了半监督算法PReMVOS,解决了多对象分割的挑战,展示了在复杂场景中的强大鲁棒性和准确性。
运动表达引导的视频分割是新兴领域,对引用的视频对象分割 (RVOS) 提出了许多新的挑战。本技术报告调查和验证了静态主导数据和帧采样对这一具有挑战性的任务的有效性。我们的解决方案在比赛阶段达到了 0.5447 的 J&F 得分,在 PVUW Challenge 的 MeViS 赛道中排名第一。代码可以在此 https 链接上找到。
提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法,着重于增强跨模态特征交互,在视频目标分割中取得了显著的改进效果。
完成下面两步后,将自动完成登录并继续当前操作。