本研究提出DeepResonance模型,解决音乐语言模型未充分利用图像、视频和文本特征的问题,显著提升六项音乐理解任务的表现,展示了辅助模态的优势。
本文提出了一种新方法NG-Midiformer,通过无监督复合法将MIDI音乐转换为类似单词的序列,并利用N-gram Transformer编码器提升音乐理解能力。实验结果表明,该方法在音乐理解任务中表现优异。
本研究通过构建大规模基准套件OpenMU-Bench,解决了多模态语言模型在音乐理解训练中的数据稀缺问题。该套件整合现有数据集和新增注释,扩展了歌词理解和音乐工具使用的范围。结果表明,OpenMU在性能上超越了基础模型,具有重要的研究和应用价值。
完成下面两步后,将自动完成登录并继续当前操作。