利用掩模自编码器、时域卷积网络和转换器进行连续情感识别的自预训练强化
原文中文,约200字,阅读约需1分钟。发表于: 。本研究以人类情绪识别为核心,通过采用面部数据集上的 Masked Autoencoders (MAE) 预训练和 aff-wild2 数据集的微调,结合 Temporal Convolutional Network (TCN) 模块和 Transformer Encoder 模块,实现了对情绪的连续识别。
本文介绍了一种半监督学习技术,用于生成未标记面部数据的表情类别伪标签,以解决FER数据集的泛化能力问题。通过均匀抽样和去偏反馈学习策略,解决了数据集中的类别不平衡问题和半监督学习中的数据偏差问题。此外,引入了时间编码器来学习和捕捉静态图像之间的临近表情特征的时间关系。在第6届ABAW竞赛中,该方法在官方验证集上取得了优秀的成绩,证实了其有效性和竞争力。