小红花·文摘

本论文介绍了OneVOS框架，使用All-in-One Transformer统一了VOS核心组件，通过Transformer tokens建模帧、掩码和多个对象的特征，并使用灵活的注意力机制进行特征提取、匹配和记忆管理。提出了单向混合注意力来纠正语义错误和歧义，并通过动态Token选择器减轻存储负担并加快推理速度。实验证明OneVOS在七个数据集上实现了最先进的性能，特别是在复杂的LVOS和MOSE数据集上。