减少、重用、循环利用:扰动数据是否比其他语言增强对于低资源自我监督语音模型更好

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一种新的数据增强技术,用于文本到语音的任务,能够生成新的(文本,音频)训练样本,有助于减少过拟合,特别是在低资源环境下。该方法能够改善许多数据集、说话人和 TTS 体系结构的语音质量,并能大大提高基于注意力的 TTS 模型的鲁棒性。

🎯

关键要点

  • 介绍了一种新的数据增强技术,用于文本到语音的任务。
  • 该技术能够生成新的(文本,音频)训练样本,无需额外的数据。
  • 方法增加了训练期间可用的文本条件的多样性,有助于减少过拟合,特别是在低资源环境下。
  • 通过替换文本和音频段确保语法正确性,并采取措施避免伪影。
  • 感知评估结果表明,该方法改善了多种数据集、说话人和 TTS 体系结构的语音质量。
  • 该方法大大提高了基于注意力的 TTS 模型的鲁棒性。
➡️

继续阅读