利用掩模自编码器、时域卷积网络和转换器进行连续情感识别的自预训练强化
内容提要
本文介绍了在第四届野外情感行为分析竞赛中提出的多任务学习方法,利用深度模型提取情感特征,显著提高了情感分类和评估的准确性。研究表明,基于Transformer的架构和EfficientNet模型在实时视频情感分析中表现优异,尤其在多模态特征提取和情感反应强度评估方面超越了基线方法。
关键要点
-
在第四届野外情感行为分析竞赛中,提出了一种多任务学习方法,利用面部和背景信息进行情感分类和评估。
-
使用InceptionNet V3模型提取深度特征,显著提高了验证集上的质量指标。
-
基于Transformer的架构能够在模态缺失的情况下识别情绪,提升了对弱显著输入的学习效果。
-
提出了一种基于EfficientNet的实时视频情感分析算法,在Aff-Wild2数据集上表现优异,超越了VggFace基线。
-
研究表明,利用多任务流网络和多模态特征可以有效进行情感自动识别,提升模型性能。
-
在情感反应强度评估方面,提出的方法超越了基线方法84%,在验证数据集上取得了优秀结果。
-
研究音频和文本的预训练特征提取方法,证明了wav2vec和BERT联合使用在连续情感识别任务中的有效性。
-
提出的半监督学习技术解决了有限FER数据集的泛化能力问题,并在第6届ABAW竞赛中取得了优秀成绩。
延伸问答
在情感行为分析竞赛中,提出了什么样的学习方法?
提出了一种多任务学习方法,利用面部和背景信息进行情感分类和评估。
EfficientNet模型在情感分析中有什么优势?
EfficientNet模型在实时视频情感分析中表现优异,超越了VggFace基线。
Transformer架构如何提升情感识别的效果?
Transformer架构能够在模态缺失的情况下识别情绪,提升对弱显著输入的学习效果。
研究中如何解决有限FER数据集的泛化能力问题?
通过半监督学习技术生成未标记面部数据的表情类别伪标签,并采用均匀抽样和去偏反馈学习策略。
在情感反应强度评估方面,提出的方法表现如何?
提出的方法在情感反应强度评估方面超越了基线方法84%,在验证数据集上取得了优秀结果。
音频和文本的预训练特征提取方法有什么效果?
使用wav2vec和BERT联合进行特征提取,在连续情感识别任务中表现非常合适,CCC值达到0.825。