小红花·文摘

本文介绍了一种端到端可训练的理解网络，结合语言和视觉编码器，通过动态滤波器将文本知识转移到图像中，有效捕获对象的空间信息，并通过生成字幕网络加强模块通信。实验结果显示，该框架在两个数据集上表现优异。