VISA:基於大型語言模型的視頻目標分割推理
原文中文,约600字,阅读约需2分钟。发表于: 。在这篇论文中,我们介绍了一项新任务 Reasoning Video Object Segmentation (ReasonVOS),该任务旨在根据隐式文本查询生成一系列分割掩模,需要基于世界知识和视频背景进行复杂推理能力,对于结构化环境理解和面向对象交互非常重要,在体验式人工智能的发展中起到关键作用。我们引入了 VISA (Video-based large language...
本论文介绍了ReasonVOS任务,通过隐式文本查询生成分割掩模。作者使用VISA进行多模态LLMs的世界知识推理,同时具备分割和跟踪视频对象的能力。实验证明了VISA在处理复杂推理分割和普通指代分割的视频和图像中的有效性。