在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

EmoDistill是一种新颖的语音情感识别框架,利用跨模态知识蒸馏从语音中学习情感表示。在IEMOCAP基准上的实验证明其优势,实现了77.49%的非加权准确率和78.91%的加权准确率。

🎯

关键要点

  • EmoDistill 是一种新颖的语音情感识别框架。

  • 该框架利用跨模态知识蒸馏从语音中学习情感表示。

  • 在推断过程中,仅使用语音信号进行单模态情感识别,减少计算开销。

  • 避免了运行时转录和韵律特征提取错误。

  • 在 IEMOCAP 基准上的实验显示,EmoDistill 超过了其他单模态和多模态技术。

  • 实现了 77.49% 的非加权准确率和 78.91% 的加权准确率。

  • 详细的消融研究展示了方法各组成部分的影响。

➡️

继续阅读