本研究提出MEGa框架,旨在解决大型语言模型在顺序添加新记忆和整合新知识时的局限性。通过直接将事件记忆注入模型权重,并利用门控机制激活相关记忆,从而减轻灾难性遗忘,展示了与人脑记忆系统的相似性。
通过实体信息和知识蒸馏,提出了基于实体引导的多模态总结模型(EGMS)。该模型利用共享权重的双多模态编码器处理文本-图片和实体-图片信息,采用门控机制增强文本总结生成,并通过知识蒸馏优化图像选择。实验证明了EGMS方法的优越性和将实体信息纳入多模态总结问题的必要性。
本文研究了改进的Mamba与门控机制在隐藏状态空间中的交叉模态特征,并设计了融合Mamba块(FMB)来提高特征表征一致性。实验证明该方法在目标检测性能上表现出色。
本文研究了多模式机器翻译(MMT)模型在训练和评估时过拟合的问题,并提出了一种基于高效纯文本机器翻译(MT)模型的方法来解决。通过使用视觉 - 文本适配器层和门控机制,将MT模型逐步转换为MMT模型,并通过预训练和微调来提高性能。
完成下面两步后,将自动完成登录并继续当前操作。