阶段性和先验意识的神经语音相位预测

本文提出了一种新颖的阶段性和先验意识神经语音相位预测模型（SP-NSPP），旨在解决现有相位预测方法准确性不足的问题。该模型通过两个阶段的神经网络从输入幅度谱预测相位谱，显著提升了预测精度和生成效率。实验结果表明，与现有技术相比，SP-NSPP不仅提高了相位预测的精度，同时无需多次迭代，使得生成过程更加高效。

本文介绍了一种名为PhasePerturbation的语音数据增强方法，通过动态调整语音相位谱增加数据多样性。在wav2vec2.0预训练的ASR模型上，使用TIMIT语料微调，词错误率降低10.9％。结合VTLP和SpecAug方法，WER进一步降低12.9％和15.9％，显示了其在增强方法上的有效性。

PhasePerturbation TIMIT WER wav2vec2.0 语音数据增强