小红花·文摘

该文介绍了视频实例分割方法DVIS，通过引入去噪策略实现在复杂和长视频中更稳定准确的目标跟踪。同时，利用DINO v2预训练的冻结的VIT-L模型探索了视觉基础模型在视频实例分割中的作用。在第5届LSVOS挑战赛中获得了第一名，开发和测试阶段分别达到了57.9 AP和56.0 AP。