本研究提出了一种统一的多任务学习框架,针对音乐情感识别中的情感标签异构问题,结合类别和维度标签进行训练。该框架通过有效的输入表示和知识蒸馏技术显著提升了模型的泛化能力,尤其在MTG-Jamendo数据集上表现优于现有模型,推动了音乐情感识别的发展。
本文提出了三个新的音频、歌词和双模MER研究数据集,合称为MERGE,解决了双模音频-歌词系统发展中的数据库匮乏问题。实验结果表明,使用深度神经网络在双模分类任务上取得了79.21%的最佳综合F1分数。
完成下面两步后,将自动完成登录并继续当前操作。