Vevo: Controllable Zero-Shot Voice Imitation and Self-Supervised Disentanglement
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出Vevo框架,解决了现有语音模仿技术对标注数据的依赖及音色与风格解耦的难题。Vevo通过内容-风格建模和声学建模的两阶段过程,实现了可控的零-shot语音模仿,能够在无需特定风格语料的情况下成功进行口音和情感转换。
🎯
关键要点
- Vevo框架解决了现有语音模仿技术对标注数据的依赖问题。
- Vevo通过内容-风格建模和声学建模的两阶段过程实现可控的零-shot语音模仿。
- 该框架能够在无需特定风格语料的情况下成功进行口音和情感转换。
- Vevo通过自监督方法逐步解耦语音中的音色、风格和语言内容。
- 在口音和情感转换任务中,Vevo的效果达到或超越现有方法。
➡️