SongCreator:基于歌词的通用歌曲生成
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该研究探索生成式人工智能与人类艺术过程相交的关键领域,研究人类为中心的自动歌曲创作中的对齐关系。通过提出新任务,将口语描述与歌曲生成相对齐,弥合口语语言理解和AI模型中的听觉表达之间的鸿沟。通过引入Caichong音乐数据集(CaiMD),克服了数据匮乏的限制。提出了名为MuDiT/MuSiT的单阶段框架,实现了有效的人机对齐。该框架跨模态理解口语语言和音乐知觉,并确保生成的歌曲与用户期望结果对齐。MuDiT/MuSiT采用DiT/SiT模型生成音乐元素,如旋律、和声、节奏、人声和乐器,保证音响连贯性和人类听觉期望的共鸣。
🎯
关键要点
-
该研究探索生成式人工智能与人类艺术过程相交的关键领域。
-
研究人类为中心的自动歌曲创作中的对齐关系。
-
提出口语描述到歌曲生成的新任务,旨在弥合口语语言理解和AI模型中的听觉表达之间的鸿沟。
-
引入Caichong音乐数据集(CaiMD),克服数据匮乏的限制。
-
CaiMD由专业音乐家和业余爱好者手动注释,满足AI生成音乐与用户期望结果对齐的目的。
-
提出MuDiT/MuSiT单阶段框架,实现有效的人机对齐。
-
该框架实现口语语言与音乐知觉之间的跨模态理解。
-
MuDiT/MuSiT采用DiT/SiT模型生成旋律、和声、节奏、人声和乐器等音乐元素。
-
确保生成的音乐元素之间具有和谐的音响连贯性,以更好地与人类听觉期望产生共鸣。
➡️