本文介绍了一种基于语言描述的视频目标分割方法,利用扩展的语言基础模型实现时空连续预测。研究表明,该方法在多个数据集上优于传统技术,特别是在动态对象捕捉和跨模态学习方面。新提出的模型OnlineRefer和VD-IT在准确性和效率上均优于现有方法,推动了视频理解任务的发展。
完成下面两步后,将自动完成登录并继续当前操作。