基于时空序列和关系学习的情感 - 激活估计的多模态融合方法
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究通过预处理视频和音频,提取视觉和音频特征,并使用时间卷积网络和Transformer编码器结构来提高模型性能和泛化能力。研究还融合了预训练的音频和视频模型进行特征提取,取得了较好的VA评估性能。
🎯
关键要点
- 研究通过预处理视频和音频来提取视觉和音频特征。
- 使用时间卷积网络和Transformer编码器结构来提高模型性能和泛化能力。
- 融合预训练的音频和视频模型进行特征提取。
- 研究实现了较好的VA评估性能。
🏷️
标签
➡️