SongCreator:基于歌词的通用歌曲生成

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该研究探索生成式人工智能与人类艺术过程相交的关键领域,研究人类为中心的自动歌曲创作中的对齐关系。通过提出新任务,将口语描述与歌曲生成相对齐,弥合口语语言理解和AI模型中的听觉表达之间的鸿沟。通过引入Caichong音乐数据集(CaiMD),克服了数据匮乏的限制。提出了名为MuDiT/MuSiT的单阶段框架,实现了有效的人机对齐。该框架跨模态理解口语语言和音乐知觉,并确保生成的歌曲与用户期望结果对齐。MuDiT/MuSiT采用DiT/SiT模型生成音乐元素,如旋律、和声、节奏、人声和乐器,保证音响连贯性和人类听觉期望的共鸣。

🎯

关键要点

  • 该研究探索生成式人工智能与人类艺术过程相交的关键领域。

  • 研究人类为中心的自动歌曲创作中的对齐关系。

  • 提出口语描述到歌曲生成的新任务,旨在弥合口语语言理解和AI模型中的听觉表达之间的鸿沟。

  • 引入Caichong音乐数据集(CaiMD),克服数据匮乏的限制。

  • CaiMD由专业音乐家和业余爱好者手动注释,满足AI生成音乐与用户期望结果对齐的目的。

  • 提出MuDiT/MuSiT单阶段框架,实现有效的人机对齐。

  • 该框架实现口语语言与音乐知觉之间的跨模态理解。

  • MuDiT/MuSiT采用DiT/SiT模型生成旋律、和声、节奏、人声和乐器等音乐元素。

  • 确保生成的音乐元素之间具有和谐的音响连贯性,以更好地与人类听觉期望产生共鸣。

➡️

继续阅读