重新思考视频分割的掩蔽视频一致性:模型真的按预期学习了吗?
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对现有视频分割模型在处理小规模或类别不平衡数据集时产生的不一致性问题,提出了一种新的训练策略——掩蔽视频一致性(MVC)。该方法通过随机掩蔽图像片段,增强了时空特征的聚合能力,并引入对象掩蔽注意力(OMA)优化交叉注意力机制,显著提高了模型在多个数据集上的性能。
我们提出了一个名为THE-Mask的视频语义分割解决方案,引入了时态感知的分层物体查询和两轮匹配机制,以最小代价匹配更多的查询对象。我们还设计了分层损失来支持多对一的分配,并提出了时态聚合解码器来捕捉帧间的时态信息。在VSS基准VSPW上,我们的方法取得了最先进的性能。