小红花·文摘

本研究提出了一种多模式扩散分割模型（MDSM），能够理解自然语言指令并生成目标物体的分割掩模，性能优于基线方法。同时，介绍了开放词汇的3D实例分割任务，利用零样本学习和OpenMask3D方法提升分割效果。此外，研究了基于语言指令的视觉语言学习框架，优化了3D分割特征提取，展示了在无监督条件下的有效性。