该研究探索生成式人工智能与人类艺术过程相交的关键领域,研究人类为中心的自动歌曲创作中的对齐关系。通过提出新任务,将口语描述与歌曲生成相对齐,弥合口语语言理解和AI模型中的听觉表达之间的鸿沟。通过引入Caichong音乐数据集(CaiMD),克服了数据匮乏的限制。提出了名为MuDiT/MuSiT的单阶段框架,实现了有效的人机对齐。该框架跨模态理解口语语言和音乐知觉,并确保生成的歌曲与用户期望结果对齐。MuDiT/MuSiT采用DiT/SiT模型生成音乐元素,如旋律、和声、节奏、人声和乐器,保证音响连贯性和人类听觉期望的共鸣。
完成下面两步后,将自动完成登录并继续当前操作。