OneVOS: 统一视频对象分割的全能变压器框架
原文中文,约500字,阅读约需2分钟。发表于: 。在这篇论文中,我们提出了 OneVOS,这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens,通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外,我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力,以更正 OneVOS 框架中存储的...
本论文介绍了OneVOS框架,使用All-in-One Transformer统一了VOS核心组件,通过Transformer tokens建模帧、掩码和多个对象的特征,并使用灵活的注意力机制进行特征提取、匹配和记忆管理。提出了单向混合注意力来纠正语义错误和歧义,并通过动态Token选择器减轻存储负担并加快推理速度。实验证明OneVOS在七个数据集上实现了最先进的性能,特别是在复杂的LVOS和MOSE数据集上。