本研究提出了一种新方法,解决现有引用视频对象分割(RVOS)在短视频片段中缺乏全局上下文的问题。通过引入自然语言理解和时间建模,增强了Segment-Anything 2(SAM2)模型,使其在流式场景中有效工作,保持上下文信息,并在多个基准测试中取得优异成果。
完成下面两步后,将自动完成登录并继续当前操作。