基于潜在扩散的多源音乐生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新颖的可控制系统,用于生成与任意输入音轨相匹配的单音轨。该系统使用音频自编码器压缩音频波形样本,并通过潜在扩散模型生成对应音轨的潜在编码。实验证明,该系统能够生成用户指定音色的低音线,对音乐制作有重要帮助。
🎯
关键要点
- 提出了一种新颖的可控制系统,用于生成与任意输入音轨相匹配的单音轨。
- 系统核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示。
- 条件化的潜在扩散模型生成对应音轨的潜在编码。
- 引入了一种技术,将潜在空间与用户提供的参考样式进行关联,以控制生成样本音色。
- 使用无分类器引导的方法,避免在生成无界潜在空间时出现失真。
- 使用配对的音轨混合组成的数据集对模型进行训练。
- 定量实验证明,系统能够生成用户指定音色的低音线。
- 该可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。
➡️