在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图
原文中文,约300字,阅读约需1分钟。发表于: 。该研究通过对 Mel 谱图的谐波和打击性组成部分进行分析,提出了一个新的架构,包括特征映射生成器算法、基于 CNN 的网络特征提取器和多层感知器(MLP)分类器,研究有效的数据增强技术建立了丰富的混合特征映射,最终在 Berlin EMO-DB 数据库上取得了 92.79% 的测试准确率,结果优于之前使用 CNN-VGG16 的研究。
EmoDistill是一种新颖的语音情感识别框架,利用跨模态知识蒸馏从语音中学习情感表示。在IEMOCAP基准上的实验证明其优势,实现了77.49%的非加权准确率和78.91%的加权准确率。