Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换 | INTERSPEECH2024
原文中文,约8300字,阅读约需20分钟。发表于: 。零样本语音转换 (zero-shot voice conversion) 旨在保留语言内容的同时,将源说话人语音转换成任意目标说话人的语音。随着深度学习技术的引入,零样本语音转换技...
西工大音频语音与语言处理研究组与喜马拉雅合作提出了鲁棒零样本语音转换模型Vec-Tok-VC+,通过渐进式损失约束和残差增强方法解决了不匹配问题和语义信息损失,提升了转换的自然度和相似度。该模型在实验中表现优于其他模型。