小红花·文摘

本文介绍了一种端到端可训练的理解网络，结合语言和视觉编码器，提出空间感知动态滤波器以有效捕获对象空间信息。通过生成的字幕网络增强语言与视觉模块的通信，评估结果显示该方法在多个数据集上表现优异，超越现有技术。