该研究提出了一种基于Transformer的新框架,通过使用Vision Transformer和Transformer模型,实现了情感估计、面部表情识别和动作元检测。引入了随机帧遮罩的学习技术和Focal损失的应用,增强了情绪和行为分析的准确性和适用性。预计对情感计算和深度学习方法的发展有所助益。
完成下面两步后,将自动完成登录并继续当前操作。