关于合成训练数据中音素持续时间变异性对自动语音识别的相关性

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种可扩展的文本转语音方法,通过预测强调词的持续时间来改善自然度,成功识别了40%的强调单词。

🎯

关键要点

  • 提出了一种可扩展的文本转语音方法。
  • 通过预测强调词的持续时间来改善自然度。
  • 该方法不需要录音或注释。
  • 相比光谱图修改技术,自然度改善了7.3%。
  • 成功识别了40%的强调单词。
➡️

继续阅读