Takin-VC:基于联合混合内容和记忆增强上下文感知音色建模的零-shot语音转换
原文中文,约300字,阅读约需1分钟。发表于: 。本文针对现有零-shot语音转换方法在说话人相似性和语音自然性方面的不足,提出了一种新颖的零-shot语音转换框架Takin-VC。该框架采用联合混合内容与记忆增强的上下文感知音色建模,能够有效提取源语音的内容并重建高质量的音色特征,其实验结果显示,Takin-VC在语音自然性和说话人相似性方面均优于当前最先进的系统。
本文介绍了一种名为Takin-VC的零样本语音转换框架,旨在提升说话人相似性和语音自然性。通过结合混合内容和记忆增强的音色建模,Takin-VC能有效提取源语音内容并重建高质量音色。实验显示,该框架在语音自然性和说话人相似性上优于现有方法。