基于对比学习的多模态架构用于利用图像 - 文本配对进行表情符号预测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为MultiModal Contrastive Learning (MMCL)的新框架,用于捕捉多模态表示中的内部和外部动态。该方法通过对比学习技术,包括单模态对比编码和伪孪生网络,过滤内嵌噪声并捕获跨模态动态。实验结果表明,该方法在两个公共数据集上超过了现有的最先进方法。

🎯

关键要点

  • 提出了一种名为MultiModal Contrastive Learning (MMCL)的新型框架。

  • 该框架用于捕捉多模态表示中的内部和外部动态。

  • 采用对比学习技术,包括单模态对比编码和伪孪生网络。

  • 过滤内嵌噪声并捕获跨模态动态。

  • 设计了两种对比学习任务:实例对比学习和基于情感的对比学习。

  • 促进预测过程并学习与情感相关的更多交互信息。

  • 在两个公共数据集上进行的实验表明,该方法超过了现有的最先进方法。

➡️

继续阅读