自我监督的口语语言模型中的声调编码
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
这项研究介绍了一种新的自监督语音转换架构,可以创建说话者解耦的表示。使用这种表示的模型在说话者相似度和词错误率方面表现更好,并且比人类录音更自然。使用明确的参考嵌入会对可读性产生负面影响。
🎯
关键要点
- 研究介绍了一种新的自监督语音转换架构。
- 该架构能够将内容与说话者 ID 或录音条件分开编码。
- 训练过的自监督表示提高了4.7个百分点的说话者相似度。
- 词错误率降低了5.4个百分点。
- 在自然性方面表现优于LibriTTS测试集中的人类录音。
- 使用明确的参考嵌入会对可读性产生负面影响。
- 与仅使用文本推断风格的模型相比,WER增加了14个百分点。
➡️