通过估计数据分布的比例进行离散扩散语言建模
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
DiffSpEx是一种基于分数的生成建模的目标说话人提取方法,使用ECAPA-TDNN目标说话人嵌入,并交替将分数函数调整到SDE时间嵌入和目标说话人嵌入上。它在WSJ0-2mix数据集上展示了潜力,实现了12.9 dB的SI-SDR和3.56的NISQA得分。预训练的DiffSpEx模型微调到特定说话人能进一步提高性能,实现了目标说话人提取中的个性化。
🎯
关键要点
- DiffSpEx是一种基于分数的生成建模的目标说话人提取方法。
- DiffSpEx通过随机微分方程实现,部署连续时间的随机扩散过程。
- 该方法从目标说话人源开始,收敛到以源混合为中心的高斯分布。
- 使用ECAPA-TDNN目标说话人嵌入,交替调整分数函数到SDE时间嵌入和目标说话人嵌入。
- 在WSJ0-2mix数据集上,DiffSpEx实现了12.9 dB的SI-SDR和3.56的NISQA得分。
- 预训练的DiffSpEx模型微调到特定说话人能进一步提高性能,实现个性化目标说话人提取。
➡️