被注意力背叛：一种简洁而有效的自监督视频对象分割方法

我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是，DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外，利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战，利用 DINO 预训练的 Transformer...

我们提出了一个简单而有效的方法来进行自监督视频对象分割。利用DINO预训练的Transformer中的固有结构依赖性建立视频中的时空对应关系，并通过简单的聚类产生分割结果。我们的方法在多个无监督VOS基准测试中展示了最先进的性能。

自监督