小红花·文摘

该研究提出了一种基于Transformer的新框架，通过使用Vision Transformer和Transformer模型，实现了情感估计、面部表情识别和动作元检测。引入了随机帧遮罩的学习技术和Focal损失的应用，增强了情绪和行为分析的准确性和适用性。预计对情感计算和深度学习方法的发展有所助益。