基于对比学习的多模态架构用于利用图像 - 文本配对进行表情符号预测

通过对多模态特征进行综合分析和提取，本研究提出了一种基于对比学习的多模态架构，该架构通过联合训练双分支编码器，并用对比学习将文本和图像准确地映射到一个共同的潜在空间内。实验结果表明，该方法在准确性和鲁棒性方面优于现有的多模态方法，并能够有效地识别跨多种模式的表情符号。

本文介绍了一种名为MultiModal Contrastive Learning (MMCL)的新框架，用于捕捉多模态表示中的内部和外部动态。该方法通过对比学习技术，包括单模态对比编码和伪孪生网络，过滤内嵌噪声并捕获跨模态动态。实验结果表明，该方法在两个公共数据集上超过了现有的最先进方法。