本文研究了缺失模态对自动音视频表情识别中 transformer 模型表现的影响。通过消融实验和知识传递网络,提升了模型的泛化性能和情感预测能力。实验结果表明,结合音频和文本信息的多模态模型在多个数据集上表现显著,尤其在 IEMOCAP 数据集上效果最佳。
完成下面两步后,将自动完成登录并继续当前操作。