本文介绍了一种跨模态自注意模块(CMSA),能够有效捕捉语言与视觉特征的长距离依赖关系,并通过门控多层融合模块集成特征。研究表明,该方法在图像分割任务中优于现有技术,并在多个数据集上取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。