本研究通过低秩适应方法(LoRA)提升传统语音合成模型在嘈杂环境下模拟非工作室质量样本的能力,显著增强说话者相似度,同时保持内容自然性,为多样化语音语料库奠定基础。
这项研究介绍了一种新的自监督语音转换架构,可以创建说话者解耦的表示。结果显示,使用这种表示的大型语言模型在说话者相似度和词错误率方面都有显著提高。同时,它们在自然性方面也优于人类录音。
这项研究介绍了一种新的自监督语音转换架构,可以创建说话者解耦的表示。使用这种表示的模型在说话者相似度和词错误率方面表现更好,并且比人类录音更自然。使用明确的参考嵌入会对可读性产生负面影响。
完成下面两步后,将自动完成登录并继续当前操作。