小红花·文摘

本文介绍了一种名为MIVC的通用多实例可视化组件，通过神经网络以排列不变的方式汇总视觉表示，弥补了图像输入与预训练语言模型之间的差距。MIVC被整合到视觉语言模型中，显著提高了视觉问答、分类和标题任务的模型性能，并在电子商务数据集上展示了该组件对下游任务的贡献。