UniVS:具备提示查询的统一通用视频分割
原文中文,约400字,阅读约需1分钟。发表于: 。通过使用提示作为查询,我们提出了一种新颖的统一视频分割 (UniVS) 架构,该架构平均目标的前几帧的提示特征作为初始查询来明确解码掩码,并在掩码解码器中引入了一种目标导向的提示交叉注意力层,以将提示特征集成到内存池中。通过将先前帧中的实体的预测掩码作为其视觉提示,UniVS...
该研究提出了一种新的统一视频分割架构(UniVS),通过使用提示作为查询来明确解码掩码,并引入目标导向的提示交叉注意力层。UniVS将不同的视频分割任务转化为提示引导的目标分割,消除了启发式的帧间匹配过程。该框架在不同的场景中实现了通用的训练和测试,并在10个具有挑战性的视频分割基准上展现了出色的性能和通用性。