基于布朗桥的开放词汇视频实例分割

我们提出了一种名为 BriVIS 的方法，通过建立帧级实例表示与类别文本之间的布朗桥对准，实现了更精确的开放词汇 VIS，超越了 OV2Seg，并在挑战性数据集 BURST 上取得了 7.43 的 mAP，相比 OV2Seg 提高了 49.49%。

本研究提出了一项名为OpenVIS的新计算机视觉任务，旨在根据文本描述分割、检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS可以识别所需类别的对象，不受训练数据集的限制。研究提出了一个由两个阶段组成的流程，利用基于查询的蒙版提议网络生成潜在对象的蒙版，并通过预训练的VLM预测其类别，然后通过提议后处理方法更好地适应预训练的VLMs，以避免扭曲和不自然的提议输入。

OpenVIS 分割文本描述检测计算机视觉任务