Open3DIS: 基于 2D 掩码引导的开放词汇 3D 实例分割
原文中文,约300字,阅读约需1分钟。发表于: 。Open3DIS 是对 3D 场景中开放词汇实例分割问题的一种新解决方案,通过聚合帧间的 2D 实例掩码并将其映射到几何连贯的点云区域作为高质量的对象提案,与 3D 非特定类实例提案相结合,能够在真实世界的广泛对象中实现显著的性能提升。
本研究提出了一项名为OpenVIS的新计算机视觉任务,旨在根据文本描述分割、检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS可以识别所需类别的对象,不受训练数据集的限制。研究提出了一个由两个阶段组成的流程,利用基于查询的蒙版提议网络生成潜在对象的蒙版,并通过预训练的VLM预测其类别,然后通过提议后处理方法更好地适应预训练的VLMs,以避免扭曲和不自然的提议输入。