本研究提出了C-MCR和Ex-MCR等多种高效的多模态学习方法,旨在无需成对数据实现模态对齐和匹配,从而显著提升表示学习性能。通过自我监督学习和互信息最大化,研究在分类和目标检测等任务中取得了显著改进,强调了模态间的语义对齐潜力。
本研究提出了一种基于重放的持续文本分类方法InfoCL,通过互信息最大化和对抗性记忆增强策略,有效减轻了遗忘问题,并在三个文本分类任务上达到了最先进的性能。
DBF是一种视频多模态融合去噪模型,使用瓶颈机制过滤噪声和冗余信息,并采用互信息最大化模块来调节过滤器以保留关键信息。实验表明,该模型在多个基准测试中都有显著的改进效果,可以有效地从嘈杂和冗余的视频、音频和文本输入中捕捉到显著特征。
完成下面两步后,将自动完成登录并继续当前操作。