无词汇的3D实例分割:结合视觉与语言的研究
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了当前大多数3D实例分割方法在开放词汇条件下的局限性,提出了一种无词汇的3D实例分割新方法。通过结合视觉-语言助手和开放词汇2D实例分割器,采用谱聚类策略提升了实例掩膜的生成质量。实验结果表明,该方法在ScanNet200和Replica数据集上优于现有技术,具有较大的应用潜力。
本研究提出了一项新的计算机视觉任务OpenVIS,旨在根据文本描述分割、检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS可以识别所需类别的对象,不受训练数据集限制。流程包括两个阶段,利用蒙版提议网络生成潜在对象的蒙版,并通过预训练的VLM预测类别,然后通过提议后处理方法适应预训练的VLMs,避免扭曲和不自然的提议输入。