CVPR 2024 PVUW 工作坊 MeViS 赛道冠军解决方案:运动表情引导的视频分割
📝
内容提要
提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法,着重于增强跨模态特征交互,在视频目标分割中取得了显著的改进效果。
🏷️
提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法,着重于增强跨模态特征交互,在视频目标分割中取得了显著的改进效果。