介绍了MMIS数据集,包含近16万张图片,每张图片都有文本描述和音频记录,为场景生成和识别提供了丰富和多样的信息源。MMIS涵盖了各类室内空间,对多模态表示学习任务有贡献。
本研究提出了一种解决多模态表示学习中异质模态样本对齐问题的方法,并通过实验结果验证了其在多模态设置和真实数据中的有效性。
该研究提出了一种基于知识引导的双一致性网络,用于检测具有多媒体内容的谣言。该网络具有两个一致性检测子网络,可以同时捕获跨模态和内容 - 知识水平的不一致性,并在不同丢失视觉模态条件下实现鲁棒的多模态表示学习。实验结果表明,该框架在三个公共实际多媒体数据集上的表现优于最先进的基线。
完成下面两步后,将自动完成登录并继续当前操作。