多条件扩散模型的音频生成
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种新的模型,通过包含额外条件(时间戳、语调曲线和能量曲线)作为文本的补充,增强了现有预训练文本转音频模型的可控性,实现了对生成音频的时间顺序、音高和能量的精细控制。通过使用可训练的控制条件编码器和可训练的融合网络,在保持预训练文本转音频模型权重不变的同时,将额外条件编码和融合。由于缺乏合适的数据集和评估指标,我们将现有数据集整合成一个包含音频和相应条件的新数据集,并使用一系列评估...
该研究提出了一种新的模型,通过添加时间戳、语调曲线和能量曲线作为文本的补充,增强了预训练文本转音频模型的可控性。该模型能够精细控制生成音频的时间顺序、音高和能量。实验结果表明,该模型成功实现了细粒度控制,实现了可控的音频生成。