Vevo:可控的零-shot语音模仿与自监督解耦
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出Vevo框架,解决了语音模仿技术对标注数据的依赖及音色与风格解耦的问题,实现了可控的零-shot语音模仿,效果优于现有方法。
🎯
关键要点
- 本研究提出Vevo框架,解决语音模仿技术对标注数据的依赖问题。
- Vevo框架实现了可控的零-shot语音模仿。
- 框架通过内容-风格建模和声学建模的两阶段过程逐步解耦音色、风格和语言内容。
- Vevo在无需特定风格语料的情况下,能够在口音和情感转换任务中达到或超越现有方法的效果。
➡️