本研究提出Vevo框架,解决了现有语音模仿技术对标注数据的依赖及音色与风格解耦的难题。Vevo通过内容-风格建模和声学建模的两阶段过程,实现了可控的零-shot语音模仿,能够在无需特定风格语料的情况下成功进行口音和情感转换。
完成下面两步后,将自动完成登录并继续当前操作。