野外录制的语音信息中的语音情感识别

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

该研究使用西班牙语音消息数据集,创建了基于说话者的情感识别模型,并比较了不同数据库的结果。使用预训练模型和特征组合取得了较高准确率,对于情感价值和唤醒度的预测分别达到了61.64%和55.57%的非加权准确率。结果显示注释者标签的变化会影响模型的效果,结合专家和非专家的注释可以获得更好的结果和公平性。该研究对于分析即兴语音消息的应用程序开发有重要贡献。

🎯

关键要点

  • 该研究使用西班牙语音消息数据集(EMOVOME),创建了基于说话者的情感识别模型。
  • 使用预训练模型和特征组合,情感价值和唤醒度的非加权准确率分别达到了61.64%和55.57%。
  • 注释者标签的变化会影响模型效果,结合专家和非专家的注释可以获得更好的结果和公平性。
  • EMOVOME在情感类别的预测上不及RAVDESS数据库,但在情感价值和唤醒度方面与IEMOCAP数据库效果相似。
  • 该研究对即兴语音消息的应用程序开发有重要贡献。
➡️

继续阅读