减少、重用、循环利用:扰动数据是否比其他语言增强对于低资源自我监督语音模型更好
原文中文,约300字,阅读约需1分钟。发表于: 。利用音频增强方法预训练自监督表示学习(SSRL)模型,相比监督模型,在低资源语言中改善了下游音素识别性能。研究比较了不同的增强技术,包括音高变化、噪音添加、目标语言口音和其他语言语音,并发现了综合增强(噪音 / 音高)是最佳的增强策略,超过了口音和语言知识迁移。研究结果表明,在资源有限的语言中,领域内的合成增强可以优于口音或其他语言的知识迁移。
该文介绍了一种新的数据增强技术,用于文本到语音的任务,能够生成新的(文本,音频)训练样本,有助于减少过拟合,特别是在低资源环境下。该方法能够改善许多数据集、说话人和 TTS 体系结构的语音质量,并能大大提高基于注意力的 TTS 模型的鲁棒性。