小红花·文摘

本研究提出了一种新方法，解决了现有引用视频对象分割（RVOS）在短视频中信息损失的问题。通过引入自然语言理解和时间建模，增强了Segment-Anything 2（SAM2）模型的能力，实现了更有效的流式场景跟踪，并在多个基准测试中取得了优异的结果。