减少、重用、循环利用:扰动数据是否比其他语言增强对于低资源自我监督语音模型更好
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种新的数据增强技术,用于文本到语音的任务,能够生成新的(文本,音频)训练样本,有助于减少过拟合,特别是在低资源环境下。该方法能够改善许多数据集、说话人和 TTS 体系结构的语音质量,并能大大提高基于注意力的 TTS 模型的鲁棒性。
🎯
关键要点
- 介绍了一种新的数据增强技术,用于文本到语音的任务。
- 该技术能够生成新的(文本,音频)训练样本,无需额外的数据。
- 方法增加了训练期间可用的文本条件的多样性,有助于减少过拟合,特别是在低资源环境下。
- 通过替换文本和音频段确保语法正确性,并采取措施避免伪影。
- 感知评估结果表明,该方法改善了多种数据集、说话人和 TTS 体系结构的语音质量。
- 该方法大大提高了基于注意力的 TTS 模型的鲁棒性。
➡️