利用实体信息进行跨模态关联学习:实体引导的多模态摘要
原文中文,约300字,阅读约需1分钟。发表于: 。多模态总结和输出领域中,通过引入实体信息和知识蒸馏,我们提出了一种基于实体引导的多模态总结模型(EGMS),该模型利用共享权重的双多模态编码器同时处理文本 - 图片和实体 - 图片信息,采用门控机制增强文本总结生成,还通过对经过预训练的视觉 - 语言模型进行的知识蒸馏来优化图像选择。该模型在公开的多模态总结数据集上进行了广泛实验,验证了 EGMS 方法的优越性,也证明了将实体信息纳入多模态总结问题的必要性。
通过实体信息和知识蒸馏,提出了基于实体引导的多模态总结模型(EGMS)。该模型利用共享权重的双多模态编码器处理文本-图片和实体-图片信息,采用门控机制增强文本总结生成,并通过知识蒸馏优化图像选择。实验证明了EGMS方法的优越性和将实体信息纳入多模态总结问题的必要性。