小红花·文摘

本文介绍了一种跨模态自注意模块（CMSA），能够有效捕捉语言与视觉特征的长距离依赖关系，并通过门控多层融合模块集成特征。研究表明，该方法在图像分割任务中优于现有技术，并在多个数据集上取得了最先进的性能。