OneVOS: 统一视频对象分割的全能变压器框架

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本论文介绍了OneVOS框架,使用All-in-One Transformer统一了VOS核心组件,通过Transformer tokens建模帧、掩码和多个对象的特征,并使用灵活的注意力机制进行特征提取、匹配和记忆管理。提出了单向混合注意力来纠正语义错误和歧义,并通过动态Token选择器减轻存储负担并加快推理速度。实验证明OneVOS在七个数据集上实现了最先进的性能,特别是在复杂的LVOS和MOSE数据集上。

🎯

关键要点

  • 本论文介绍了OneVOS框架,使用All-in-One Transformer统一了VOS核心组件。
  • 通过Transformer tokens建模帧、掩码和多个对象的特征。
  • 使用灵活的注意力机制进行特征提取、匹配和记忆管理。
  • 提出了单向混合注意力以纠正语义错误和歧义。
  • 通过动态Token选择器减轻存储负担并加快推理速度。
  • 实验证明OneVOS在七个数据集上实现了最先进的性能,尤其是在复杂的LVOS和MOSE数据集上。
  • 在LVOS和MOSE数据集上,J&F得分分别为70.1%和66.4%,超过了先前最先进的方法4.2%和7.0%。
  • 代码可供再现性和进一步研究。
➡️

继续阅读