小红花·文摘 - 小红花技术领袖俱乐部

视频对象分割（VOS）是一种区分和跟踪视频中目标对象的技术。研究人员提出了一个名为LVOS的新基准，该基准包含比现有数据集更长5倍的视频，以更好地评估VOS模型在实际场景中的性能。研究发现，现有的VOS模型在真实场景中性能下降较大，突出了实现精确跟踪和分割的挑战。

LSVOS挑战报告：大规模复杂和长视频目标分割

BriefGPT - AI 论文速递 ·

视频对象分割（VOS）是区分和跟踪视频中目标对象的技术。研究人员提出了名为LVOS的新基准，包含更长的视频，以评估VOS模型在实际场景中的性能。现有的VOS模型在真实场景中性能下降较大，突出了精确跟踪和分割的挑战。

LVOS：大规模长期视频对象分割的基准

BriefGPT - AI 论文速递 ·

本论文介绍了OneVOS框架，使用All-in-One Transformer统一了VOS核心组件，通过Transformer tokens建模帧、掩码和多个对象的特征，并使用灵活的注意力机制进行特征提取、匹配和记忆管理。提出了单向混合注意力来纠正语义错误和歧义，并通过动态Token选择器减轻存储负担并加快推理速度。实验证明OneVOS在七个数据集上实现了最先进的性能，特别是在复杂的LVOS和MOSE数据集上。

OneVOS: 统一视频对象分割的全能变压器框架

BriefGPT - AI 论文速递 ·