本研究提出了一种新框架,通过结合文本和视觉模态,从视频数据集中生成自然语言描述。该框架利用ResNet50提取视频帧特征,并通过基于GPT-2的模型生成高质量、可解释的描述,具有重要的实际应用价值。
本文提出了一种基于学习的方法来检测真实和虚假的deepfake多媒体内容。通过分析音频和视觉模态的相似性以及情感线索来判断输入视频的真实性。实验结果表明,该方法在DeepFake-TIMIT和DFDC数据集上的AUC分别达到了84.4%和96.6%。
本文回顾了面向视觉的多模态大型语言模型 (MLLMs) 的体系结构、对齐策略和训练技术,并分析了其在多个任务上的应用。同时,还比较了不同模型的性能和计算要求。这项调查为未来的 MLLMs 提供了基础。
本研究提出了动态交叉注意力(DCA)模型,用于优化视频情绪识别中音频和视觉模态的特征表示。DCA模型在两个数据集上的评估结果表明,其能够稳定提升系统性能。
本文提出了一种基于视觉模态的无监督噪声适应方案,通过音位-音素映射技术从视觉信号中恢复干净音频,提高AVSR系统的噪声鲁棒性。实验结果表明,该方法在各种噪声和清晰条件下都达到了最先进水平,并在视觉语音识别任务上优于之前的最优水平。
本文介绍了一种多模态感知跟踪器(MPT),利用声音和视觉模态进行讲话者跟踪。通过声学地图、多模态感知注意力网络和跨模态自我监督学习方法实现异构信号融合和模态互补性。实验结果表明,MPT在标准和遮挡数据集上的跟踪精度分别达到98.6%和78.3%,鲁棒性优于最新技术。
本研究介绍了一种新的多模式话题建模方法:extsf {PromptMTopic},利用大型语言模型的语言建模能力从文本和视觉模态中学习话题。实验证实了该模型在学习描述性迷因话题方面的优越性,并能识别出有意义的、与文化相关的迷因话题。
完成下面两步后,将自动完成登录并继续当前操作。