多模态对比学习中应对齐什么?
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了现有多模态对比学习方法仅关注模态间共享信息的问题。我们提出了CoMM策略,通过最大化增强多模态特征的互信息来对齐模态表示,从而能够捕捉丰富的多模态交互信息。实验表明,CoMM在多个真实世界任务中取得了最先进的成果,展现了其潜在的广泛影响。
本文提出了一种名为MultiModal Contrastive Learning (MMCL)的新型框架,用于捕捉多模态表示中的内部和外部动态。通过对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。实验结果表明,该方法超过了现有的最先进方法。