BandControlNet:基于并行变压器的可调式流行音乐生成与细粒度时空特征
原文中文,约500字,阅读约需2分钟。发表于: 。可控音乐生成通过将用户的意图投射到所需音乐上,促进人类和作曲系统之间的互动。为了解决弱可控性和音乐质量不佳的问题,我们首先提出了时空特征作为强大而细粒度的控制器来增强生成模型的可控性。通过设计高效的音乐表示 REMl_Track 并使用 Byte Pair Encoding(BPE)技术缩短每个音轨的序列长度,我们构建了多音轨音乐系统。然后,我们发布了...
这篇文章介绍了一种可控音乐生成系统,通过投射用户意图到所需音乐上,促进人与作曲系统的互动。研究者提出了时空特征作为控制器,增强生成模型的可控性。他们构建了多音轨音乐系统,并发布了一种基于并行Transformer的条件模型,用于生成高质量的音乐样本。实验结果显示,该模型在客观指标上优于其他条件音乐生成模型,并在生成长音乐样本方面表现出稳健性。主观评估也证明了该模型在音乐质量上的优势。