第四届真实世界像素级视频理解挑战赛将于CVPR 2025在美国举行,设有复杂场景视频目标分割和基于动作描述的视频分割两个赛道。参赛者可下载数据集进行测试并提交结果评估,旨在推动视频理解研究,欢迎相关论文投稿。
该研究提出了一种新的统一视频分割架构(UniVS),通过使用提示作为查询来明确解码掩码,并引入目标导向的提示交叉注意力层。UniVS将不同的视频分割任务转化为提示引导的目标分割,消除了启发式的帧间匹配过程。该框架在不同的场景中实现了通用的训练和测试,并在10个具有挑战性的视频分割基准上展现了出色的性能和通用性。
完成下面两步后,将自动完成登录并继续当前操作。