BriefGPT - AI 论文速递 ·

动态多模式及视角选择用于缺失模态的多模式情感识别

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文研究了缺失模态对自动音视频表情识别中 transformer 模型表现的影响。通过消融实验和知识传递网络，提升了模型的泛化性能和情感预测能力。实验结果表明，结合音频和文本信息的多模态模型在多个数据集上表现显著，尤其在 IEMOCAP 数据集上效果最佳。

🎯

❓

缺失模态会降低 transformer 模型在自动音视频表情识别中的表现，导致情感预测能力下降。

本文提出了一种新颖的知识传递网络，通过跨模态注意机制重构缺失的音频模式。

在 IEMOCAP 数据集上，结合音频和文本信息的多模态模型表现最佳，取得了最新的最佳效果。

消融实验用于提高模型的泛化性能，通过随机消融训练数据的策略来验证模型的有效性。

实验结果表明，多模态模型在情感预测能力方面实现了显著的改进，尤其是在多个数据集上表现优异。

跨模态注意机制用于保留重构和观察到的模态之间的最大信息，从而提高情感预测的准确性。

🏷️