DITTO: 音乐生成的扩散以及推理时间下的 T 优化
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了逆向传播推理时间 T 优化(DITTO)的框架,用于通过优化初始噪声潜变量来控制预训练的文本到音乐传播模型,实现目标(风格化)输出。我们的方法可以通过优化任何可微分的特征匹配损失来实现音乐生成的广泛应用,包括填充、扩展、循环以及强度、旋律和音乐结构的控制 -...
逆向传播推理时间 T 优化(DITTO)框架用于控制预训练的文本到音乐传播模型的目标输出。该方法通过优化特征匹配损失实现音乐生成的多种应用,包括控制音乐的填充、扩展、循环、强度、旋律和音乐结构,无需微调基础模型。DITTO在可控性、音频质量和计算效率方面表现出色,为高质量、灵活、无需训练的传播模型控制提供了新的可能性。