BriefGPT - AI 论文速递 -

被注意力背叛:一种简洁而有效的自监督视频对象分割方法

我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是,DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外,利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战,利用 DINO 预训练的 Transformer 中新兴的对象性,避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能,特别在复杂的现实世界多对象视频分割任务中表现出色,如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。

我们提出了一个简单而有效的方法来进行自监督视频对象分割。利用DINO预训练的Transformer中的固有结构依赖性建立视频中的时空对应关系,并通过简单的聚类产生分割结果。我们的方法在多个无监督VOS基准测试中展示了最先进的性能。

自监督

相关推荐 去reddit讨论

热榜 Top10

...
白鲸技术栈
...
观测云
...
LigaAI
...
天勤数据
...
eolink
...
ShowMeBug
...
Dify.AI

推荐或自荐