小红花·文摘

DiffSpEx是一种基于分数的生成建模的目标说话人提取方法，通过随机微分方程实现。它在短时傅里叶变换领域中部署连续时间的随机扩散过程，从目标说话人源开始并收敛到以源混合为中心的高斯分布。DiffSpEx展示了在WSJ0-2mix数据集上的潜力，并通过微调预训练模型实现了个性化的目标说话人提取。