BriefGPT - AI 论文速递 ·

音乐信息检索中用于音乐流派识别的一种新型音频表示

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

本文探讨了音频预训练模型在音乐信息检索（MIR）中的应用，强调了编码音频模型相较于传统标签模型的优势。研究表明，自监督学习和生成模型（如Jukebox）能有效提升音频特征提取和分类性能，特别是在旋律转录和流派分类任务中表现突出。

🎯

❓

编码音频预训练模型能够提供更有用的特征，提升音乐信息检索的性能，相较于传统标签模型，它能弥补传统方法中的盲点。

Jukebox模型是一种音乐生成模型，能够生成高保真度、多样化的音乐，并根据未对齐的歌词进行调整。

自监督学习通过对比学习方案，能够有效提取音乐音频的特征，提升在旋律转录和流派分类任务中的性能。

MFCC XGBoost模型在特征表现上胜出，且数据预处理阶段的分割显著提升了CNN的性能。

two-stage学习模型首先使用无监督学习将音频轨迹的局部频谱模式投射到高维稀疏空间中，然后结合标签标注进行精调。

通过使用基于人工智能的生成音乐系统，可以创建条件文本描述并生成覆盖多种音乐流派的音乐片段，用于训练流派分类器。

🏷️