OCTOPUS: 使用语义理解在混合现实中进行开放词汇内容跟踪和对象放置
原文约300字/词,阅读约需1分钟。发表于: 。本研究旨在解决增强现实中虚拟内容的放置问题,通过引入一种新的开放词汇方法,利用分割模型、视觉 - 语言模型和 LLMs 的最新进展,在任何增强现实场景中的相机镜头下放置任何虚拟物体,并通过初步的用户研究表明,我们的方法在 57%的时间内至少与人类专家表现相当。
研究者提出了开放词汇伪装的物体分割任务(OVCOS),并构建了大规模数据集OVCamo。通过集成类别语义知识和视觉结构线索,该方法能够有效捕捉伪装对象,并在OVCamo数据集上超过了先前的方法。希望该任务能推动开放词汇密集预测任务的研究。