阶段划分的视觉与语言变换器编码器的交叉感知早期融合用于参考图像分割
该研究提出了一种显式对齐视觉和语言特征的方法,用于指代图像分割。通过生成多个查询并将其转换为一系列基于查询的卷积核,在分割阶段对齐语言和视觉特征,以实现与语言相关的定位。在RefCOCO,RefCOCO+和G-Ref上超过了之前最先进的方法。
原文中文,约200字,阅读约需1分钟。
该研究提出了一种显式对齐视觉和语言特征的方法,用于指代图像分割。通过生成多个查询并将其转换为一系列基于查询的卷积核,在分割阶段对齐语言和视觉特征,以实现与语言相关的定位。在RefCOCO,RefCOCO+和G-Ref上超过了之前最先进的方法。