小红花·文摘

该研究探索生成式人工智能与人类艺术过程相交的关键领域，通过口语描述到歌曲生成的新任务，实现了口语语言与音乐知觉的跨模态理解。研究采用MuDiT/MuSiT框架，通过DiT/SiT模型生成和谐的音乐元素，与人类听觉期望产生共鸣。