重新思考视频分割的掩蔽视频一致性:模型真的按预期学习了吗?

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

我们提出了一个名为THE-Mask的视频语义分割解决方案,引入了时态感知的分层物体查询和两轮匹配机制,以最小代价匹配更多的查询对象。我们还设计了分层损失来支持多对一的分配,并提出了时态聚合解码器来捕捉帧间的时态信息。在VSS基准VSPW上,我们的方法取得了最先进的性能。

🎯

关键要点

  • 提出了一个用于视频语义分割的新解决方案THE-Mask。
  • 首次引入时态感知的分层物体查询。
  • 利用简单的两轮匹配机制以最小代价匹配更多查询对象。
  • 推理过程中无需任何额外代价。
  • 设计了一种分层损失以支持多对一的分配。
  • 提出了时态聚合解码器以捕捉帧间的时态信息。
  • 在VSS基准VSPW上取得了最先进的性能。
➡️

继续阅读