UniVS:具备提示查询的统一通用视频分割
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的统一视频分割架构(UniVS),通过使用提示作为查询来明确解码掩码,并引入目标导向的提示交叉注意力层。UniVS将不同的视频分割任务转化为提示引导的目标分割,消除了启发式的帧间匹配过程。该框架在不同的场景中实现了通用的训练和测试,并在10个具有挑战性的视频分割基准上展现了出色的性能和通用性。
🎯
关键要点
- 提出了一种新的统一视频分割架构(UniVS)。
- 使用提示作为查询来明确解码掩码。
- 引入目标导向的提示交叉注意力层。
- 将不同的视频分割任务转化为提示引导的目标分割。
- 消除了启发式的帧间匹配过程。
- 框架实现了通用的训练和测试,确保稳健的性能。
- UniVS在10个具有挑战性的视频分割基准上展现了出色的性能和通用性。
- 涵盖了视频实例、语义、全景、物体和引用分割任务。
➡️