多语言不可见说话人情感识别的探索:在多任务学习中利用共注意线索
原文中文,约2600字,阅读约需6分钟。发表于: 。本研究关注于多语言语音情感识别中未见过的说话者,引入了 CAMuLeNet 这一新颖的架构,通过共同注意力融合和多任务学习解决了这一问题,并在多个基准数据集上对预训练的 Whisper、HuBERT、Wav2Vec2.0 和 WavLM 进行基于说话者排除的交叉验证,同时发布了一个针对印地语的新颖数据集 BhavVani。根据交叉验证策略,CAMuLeNet 在未见过的说话者上显示出平均约 8% 的改进。
本研究通过引入新的架构CAMuLeNet,共同注意力融合和多任务学习,解决了多语言语音情感识别中未见过的说话者的问题。在多个基准数据集上进行了交叉验证,显示CAMuLeNet在未见过的说话者上有约8%的改进。同时发布了一个针对印地语的新颖数据集BhavVani。