阶段性和先验意识的神经语音相位预测

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为PhasePerturbation的语音数据增强方法,通过动态调整语音相位谱增加数据多样性。在wav2vec2.0预训练的ASR模型上,使用TIMIT语料微调,词错误率降低10.9%。结合VTLP和SpecAug方法,WER进一步降低12.9%和15.9%,显示了其在增强方法上的有效性。

🎯

关键要点

  • 提出了一种名为PhasePerturbation的语音数据增强方法。

  • 该方法通过动态调整语音相位谱来增加数据多样性。

  • 使用随机化、频率遮蔽和时间遮蔽技术。

  • 在wav2vec2.0预训练的ASR模型上进行微调,词错误率降低10.9%。

  • 结合VTLP和SpecAug方法,WER进一步降低12.9%和15.9%。

  • 显示了PhasePerturbation在增强方法上的有效性。

➡️

继续阅读