该研究探索生成式人工智能与人类艺术过程相交的关键领域,通过口语描述到歌曲生成的新任务,实现了口语语言与音乐知觉的跨模态理解。研究采用MuDiT/MuSiT框架,通过DiT/SiT模型生成和谐的音乐元素,与人类听觉期望产生共鸣。
完成下面两步后,将自动完成登录并继续当前操作。