本研究提出了一种多模式扩散分割模型(MDSM),能够理解自然语言指令并生成目标物体的分割掩模,性能优于基线方法。同时,介绍了开放词汇的3D实例分割任务,利用零样本学习和OpenMask3D方法提升分割效果。此外,研究了基于语言指令的视觉语言学习框架,优化了3D分割特征提取,展示了在无监督条件下的有效性。
完成下面两步后,将自动完成登录并继续当前操作。