EmoBox: 跨语言多语料库语音情感识别工具箱与基准
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该研究使用西班牙的情感数据集,创建了基于说话者的情感识别模型,并比较了不同数据库的结果。使用预训练模型和特征组合取得了较高的准确率,对于情感价值和唤醒度的预测分别达到了61.64%和55.57%的准确率。研究发现,注释者标签的变化会影响结果,结合专家和非专家的注释可以获得更好的结果和公平性。该研究对于分析即兴语音消息的应用程序开发具有重要意义。
🎯
关键要点
- 研究使用西班牙的EMOVOME情感数据集,包含100位说话者的即兴语音消息。
- 利用eGeMAPS特征和基于Transformer的模型创建了独立的情感识别模型。
- 模型对连续和离散情感进行标注,并比较了不同数据库的结果。
- 使用预训练的Unispeech-L模型与eGeMAPS组合,情感价值和唤醒度的预测准确率分别为61.64%和55.57%。
- 情感类别的预测准确率为42.58%,低于RAVDESS数据库,但与IEMOCAP数据库相似。
- 研究发现注释者标签的变化会影响结果,结合专家和非专家的注释可提高结果的公平性。
- 该研究对评估情感识别模型在现实生活中的应用具有重要意义,推动了即兴语音消息分析应用程序的开发。
➡️