阶段划分的视觉与语言变换器编码器的交叉感知早期融合用于参考图像分割
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了引用图像分割中复杂和模糊语言表达的理解及相关区域识别的挑战。提出了交叉感知早期融合框架,允许视觉和语言编码器在各阶段互相引用信息,从而增强跨模态上下文建模能力。实验表明,该方法在三个公共基准测试中都优于现有的最先进技术。
该研究提出了一种显式对齐视觉和语言特征的方法,用于指代图像分割。通过生成多个查询并将其转换为一系列基于查询的卷积核,在分割阶段对齐语言和视觉特征,以实现与语言相关的定位。在RefCOCO,RefCOCO+和G-Ref上超过了之前最先进的方法。