小红花·文摘

本文介绍了一种名为Takin-VC的零样本语音转换框架，旨在提升说话人相似性和语音自然性。通过结合混合内容和记忆增强的音色建模，Takin-VC能有效提取源语音内容并重建高质量音色。实验显示，该框架在语音自然性和说话人相似性上优于现有方法。