InstructME: 指令引导的音乐编辑和混音框架,其中包括潜在扩散模型

原文约300字,阅读约需1分钟。发表于:

我们开发了 InstructME,这是一个基于潜在扩散模型的指导式音乐编辑和混音框架,通过多尺度聚合巩固了 U-Net,并引入和语义空间的和弦进行矩阵作为条件信息以提高旋律和谐。我们的方法在音乐质量、文本相关性和和谐度方面明显优于现有系统。

该文介绍了一种通过构建文本到音乐模型来生成新音乐的方法,通过分布式扩散模型和音频广义线性模型进行训练,解决了音乐生成过程中的数据不足、版权和抄袭等问题。通过节拍跟踪和数据增强策略,实现对训练数据的重组,生成多样化且保持风格一致的音乐。通过评估指标证明了该模型和策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

相关推荐 去reddit讨论