通过实体信息和知识蒸馏,提出了基于实体引导的多模态总结模型(EGMS)。该模型利用共享权重的双多模态编码器处理文本-图片和实体-图片信息,采用门控机制增强文本总结生成,并通过知识蒸馏优化图像选择。实验证明了EGMS方法的优越性和将实体信息纳入多模态总结问题的必要性。
完成下面两步后,将自动完成登录并继续当前操作。