小红花·文摘

本研究提出了一种新方法，解决现有引用视频对象分割（RVOS）在短视频片段中缺乏全局上下文的问题。通过引入自然语言理解和时间建模，增强了Segment-Anything 2（SAM2）模型，使其在流式场景中有效工作，保持上下文信息，并在多个基准测试中取得优异成果。