指代图像分割的遮罩定位
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入 Mask Grounding 辅助任务和跨模态对齐损失以及对应的对齐模块,提出了一种用于改善参照图像分割算法的综合方法 MagNet。该方法通过教授模型学习掩蔽文本标记与匹配的视觉对象之间的细粒度对应关系,在 RefCOCO、RefCOCO + 和 G-Ref 等三个关键基准测试中显著优于现有算法,有效地解决了当前参照图像分割算法的局限性。
本文介绍了一种新的弱监督引用图像分割框架,通过利用引用文本提供的信息来定位目标物体。该框架具有三个创新点,包括协调视觉和语言特征之间的域差异、减少噪声背景信息并提高响应图的正确性、生成高质量的伪标签用于训练分割网络。实验证明该框架在性能上优于最新的弱监督方法。