野外录制的语音信息中的语音情感识别
原文中文,约600字,阅读约需2分钟。发表于: 。使用来自西班牙 100 位说话者之间的即兴语音消息的情感数据集(EMOVOME 数据库),利用 eGeMAPS 特征、基于 Transformer 的模型及其组合,创建了基于说话者的独立 SER 模型,对连续和离散情感进行标注,并比较参考数据库的结果,并分析注释者和性别公平性的影响。使用预训练的 Unispeech-L 模型及其与 eGeMAPS 的组合取得了最高的结果,对于 3...
该研究使用西班牙语音消息数据集,创建了基于说话者的情感识别模型,并比较了不同数据库的结果。使用预训练模型和特征组合取得了较高准确率,对于情感价值和唤醒度的预测分别达到了61.64%和55.57%的非加权准确率。结果显示注释者标签的变化会影响模型的效果,结合专家和非专家的注释可以获得更好的结果和公平性。该研究对于分析即兴语音消息的应用程序开发有重要贡献。