uSee: 条件扩散模型下的统一语音增强与编辑
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种统一的语音增强和编辑模型(uSee),它采用条件扩散模型以生成方式同时处理多种任务,能根据特定用户需求对语音进行增强和编辑操作。通过提供多种条件,包括自监督学习嵌入和适当的文本提示,我们的 uSee 模型可实现对源语音的可控生成,以进行相应操作。我们的实验显示,与其他相关生成式语音增强模型相比,我们提出的 uSee...
该研究提出了一种无监督的语音增强方法,利用评分驱动扩散模型的生成能力,结合噪声模型进行后验采样。该方法相比最近的变分自编码器(VAE)无监督方法和最先进的基于扩散的监督方法,取得了有希望的结果。