通过自监督表示重新审视情感语音和音乐的声学相似性
原文中文,约500字,阅读约需1分钟。发表于: 。本研究解决了情感语音和音乐之间在声学特征上的共享性问题,尤其是在自监督学习模型的应用不足的背景下。我们提出了一种跨领域适应的方法,通过分析和比较多种微调策略来有效利用音乐和语音数据,发现情感偏倚问题并提升情感识别性能。研究表明,尽管语音和音乐的自监督模型捕捉到了共通的声学特征,但由于训练策略和领域特性的不同,它们的表现会有所差异。
本研究使用循环神经网络识别音乐情感,以提升音乐推荐和治疗系统。通过Russell情感象限分类音乐,利用Librosa提取音频特征,采用RNN、双向RNN和LSTM模型。结果显示,简单RNN在小数据集上效果良好,展示了神经网络在个性化音乐推荐和治疗中的潜力。