重新思考视频分割的掩蔽视频一致性:模型真的按预期学习了吗?
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
我们提出了一个名为THE-Mask的视频语义分割解决方案,引入了时态感知的分层物体查询和两轮匹配机制,以最小代价匹配更多的查询对象。我们还设计了分层损失来支持多对一的分配,并提出了时态聚合解码器来捕捉帧间的时态信息。在VSS基准VSPW上,我们的方法取得了最先进的性能。
🎯
关键要点
- 提出了一个用于视频语义分割的新解决方案THE-Mask。
- 首次引入时态感知的分层物体查询。
- 利用简单的两轮匹配机制以最小代价匹配更多查询对象。
- 推理过程中无需任何额外代价。
- 设计了一种分层损失以支持多对一的分配。
- 提出了时态聚合解码器以捕捉帧间的时态信息。
- 在VSS基准VSPW上取得了最先进的性能。
➡️