小红花·文摘

本文研究了缺失模态对自动音视频表情识别中 transformer 模型表现的影响。通过消融实验和知识传递网络，提升了模型的泛化性能和情感预测能力。实验结果表明，结合音频和文本信息的多模态模型在多个数据集上表现显著，尤其在 IEMOCAP 数据集上效果最佳。