小红花·文摘

该研究探索生成式人工智能与人类艺术过程相交的关键领域，研究人类为中心的自动歌曲创作中的对齐关系。通过提出新任务，将口语描述与歌曲生成相对齐，弥合口语语言理解和AI模型中的听觉表达之间的鸿沟。通过引入Caichong音乐数据集（CaiMD），克服了数据匮乏的限制。提出了名为MuDiT/MuSiT的单阶段框架，实现了有效的人机对齐。该框架跨模态理解口语语言和音乐知觉，并确保生成的歌曲与用户期望结果对齐。MuDiT/MuSiT采用DiT/SiT模型生成音乐元素，如旋律、和声、节奏、人声和乐器，保证音响连贯性和人类听觉期望的共鸣。