小红花·文摘

该研究提出了一种新的统一视频分割架构(UniVS)，通过使用提示作为查询来明确解码掩码，并引入目标导向的提示交叉注意力层。UniVS将不同的视频分割任务转化为提示引导的目标分割，消除了启发式的帧间匹配过程。该框架在不同的场景中实现了通用的训练和测试，并在10个具有挑战性的视频分割基准上展现了出色的性能和通用性。