OneVOS: 统一视频对象分割的全能变压器框架
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本论文介绍了OneVOS框架,使用All-in-One Transformer统一了VOS核心组件,通过Transformer tokens建模帧、掩码和多个对象的特征,并使用灵活的注意力机制进行特征提取、匹配和记忆管理。提出了单向混合注意力来纠正语义错误和歧义,并通过动态Token选择器减轻存储负担并加快推理速度。实验证明OneVOS在七个数据集上实现了最先进的性能,特别是在复杂的LVOS和MOSE数据集上。
🎯
关键要点
- 本论文介绍了OneVOS框架,使用All-in-One Transformer统一了VOS核心组件。
- 通过Transformer tokens建模帧、掩码和多个对象的特征。
- 使用灵活的注意力机制进行特征提取、匹配和记忆管理。
- 提出了单向混合注意力以纠正语义错误和歧义。
- 通过动态Token选择器减轻存储负担并加快推理速度。
- 实验证明OneVOS在七个数据集上实现了最先进的性能,尤其是在复杂的LVOS和MOSE数据集上。
- 在LVOS和MOSE数据集上,J&F得分分别为70.1%和66.4%,超过了先前最先进的方法4.2%和7.0%。
- 代码可供再现性和进一步研究。
🏷️
标签
➡️