自我监督的口语语言模型中的声调编码

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

这项研究介绍了一种新的自监督语音转换架构,可以创建说话者解耦的表示。使用这种表示的模型在说话者相似度和词错误率方面表现更好,并且比人类录音更自然。使用明确的参考嵌入会对可读性产生负面影响。

🎯

关键要点

  • 研究介绍了一种新的自监督语音转换架构。
  • 该架构能够将内容与说话者 ID 或录音条件分开编码。
  • 训练过的自监督表示提高了4.7个百分点的说话者相似度。
  • 词错误率降低了5.4个百分点。
  • 在自然性方面表现优于LibriTTS测试集中的人类录音。
  • 使用明确的参考嵌入会对可读性产生负面影响。
  • 与仅使用文本推断风格的模型相比,WER增加了14个百分点。
➡️

继续阅读