CoCoFormer: 一种可控的功能丰富的多音乐生成方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种增强预训练文本转音频模型可控性的新模型,通过时间戳、语调曲线和能量曲线等额外条件实现对生成音频的时间顺序、音高和能量的精细控制。作者整合数据集,使用评估指标评估可控性能,实验结果表明该模型成功实现了细粒度控制,实现了可控的音频生成。
🎯
关键要点
- 提出了一种新的模型,通过额外条件增强文本转音频模型的可控性。
- 额外条件包括时间戳、语调曲线和能量曲线,实现对生成音频的精细控制。
- 使用可训练的控制条件编码器和融合网络,保持预训练模型权重不变。
- 整合现有数据集,创建包含音频和相应条件的新数据集。
- 使用评估指标评估模型的可控性能,实验结果显示成功实现细粒度控制。
- 音频样本和数据集可在指定网址获取。
➡️