基于离散令牌和语言模型的目标说话人提取

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

DiffSpEx是一种基于分数的生成建模的目标说话人提取方法,通过随机微分方程实现。它在短时傅里叶变换领域中部署连续时间的随机扩散过程,从目标说话人源开始并收敛到以源混合为中心的高斯分布。DiffSpEx展示了在WSJ0-2mix数据集上的潜力,并通过微调预训练模型实现了个性化的目标说话人提取。

🎯

关键要点

  • DiffSpEx是一种基于分数的生成建模的目标说话人提取方法。
  • 该方法通过随机微分方程实现,并在短时傅里叶变换领域中部署连续时间的随机扩散过程。
  • DiffSpEx从目标说话人源开始,收敛到以源混合为中心的高斯分布。
  • 使用参数化的分数函数调整目标说话人嵌入,以从多个源的混合中提取目标说话人。
  • 采用ECAPA-TDNN目标说话人嵌入,交替调整分数函数到SDE时间嵌入和目标说话人嵌入上。
  • 在WSJ0-2mix数据集上,DiffSpEx实现了12.9 dB的SI-SDR和3.56的NISQA得分。
  • 微调预训练的DiffSpEx模型到特定说话人能进一步提高性能,实现个性化的目标说话人提取。
➡️

继续阅读