SUN 团队在 ABAW 2024 竞赛中的贡献:音频视觉的情感倾向与表达识别
原文中文,约300字,阅读约需1分钟。发表于: 。通过调查音频和视觉深度学习方法,为非控制环境中的情绪识别问题提供有效的体系结构。使用基于微调的卷积神经网络(CNN)和公共维度情绪模型(PDEM)进行视频和音频模态的比较,并使用这些多阶段训练的模态特定的深度神经网络(DNN)的嵌入来比较替代的时间建模和融合策略。在 ABAW'24 挑战协议下,对 AffWild2 数据集进行了结果报告。
通过调查音频和视觉深度学习方法,为非控制环境中的情绪识别问题提供有效的体系结构。使用基于微调的卷积神经网络(CNN)和公共维度情绪模型(PDEM)进行视频和音频模态的比较,并使用这些多阶段训练的模态特定的深度神经网络(DNN)的嵌入来比较替代的时间建模和融合策略。在 ABAW'24 挑战协议下,对 AffWild2 数据集进行了结果报告。