SVSNet +:使用语音基础模型的表示增强说话人声音相似性评估模型
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了 SVSNet + 模型,该模型整合了预训练的 SFMs 模型来改善对说话者声音相似性的评估性能,实验证明使用 WavLM 表征的 SVSNet + 相比基线模型有显著改进,将 WavLM 替换为其他 SFMs 时,SVSNet + 仍优于基线模型且表现出强大的泛化能力。
介绍了SLMGAN,一种利用SLM在GAN框架中实现鉴别任务的新方法,特别用于语音转换。通过添加基于SLM的WavLM鉴别器和SLM特征匹配损失函数,实现了无监督的零样本语音转换系统。SLMGAN在自然度和相似性方面优于现有模型,展示了SLM鉴别器在相关应用中的潜力。