我们提出了一个名为THE-Mask的视频语义分割解决方案,引入了时态感知的分层物体查询和两轮匹配机制,以最小代价匹配更多的查询对象。我们还设计了分层损失来支持多对一的分配,并提出了时态聚合解码器来捕捉帧间的时态信息。在VSS基准VSPW上,我们的方法取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。