在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
EmoDistill是一种新颖的语音情感识别框架,利用跨模态知识蒸馏从语音中学习情感表示。在IEMOCAP基准上的实验证明其优势,实现了77.49%的非加权准确率和78.91%的加权准确率。
🎯
关键要点
-
EmoDistill 是一种新颖的语音情感识别框架。
-
该框架利用跨模态知识蒸馏从语音中学习情感表示。
-
在推断过程中,仅使用语音信号进行单模态情感识别,减少计算开销。
-
避免了运行时转录和韵律特征提取错误。
-
在 IEMOCAP 基准上的实验显示,EmoDistill 超过了其他单模态和多模态技术。
-
实现了 77.49% 的非加权准确率和 78.91% 的加权准确率。
-
详细的消融研究展示了方法各组成部分的影响。
🏷️
标签
➡️