为 ASR 数据增强精确合成口吃病患者语音

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文通过多阶段增强方法改进阿拉伯语言障碍患者的自动语音识别性能。方法包括生成阿拉伯语言障碍患者的语音,通过对英语语言障碍患者语音数据进行训练进行多语言扩充,以及在不同的语音障碍程度下进行微调和文本纠正策略。实验结果显示,在阿拉伯语言障碍患者的语音数据集上,词错误率为18%,字符错误率为17.2%。相比只针对健康数据训练的基础模型,实现了81.8%的词错误率提升,并在真实的英文语言障碍患者语音数据集上实现了124%的词错误率提升。

🎯

关键要点

  • 本文通过多阶段增强方法改进阿拉伯语言障碍患者的自动语音识别性能。
  • 使用基于信号的方法生成阿拉伯语言障碍患者的语音。
  • 通过对英语语言障碍患者语音数据进行训练实现多语言扩充。
  • 在不同的语音障碍程度下进行微调和文本纠正策略。
  • 在阿拉伯语言障碍患者的语音数据集上实现了18%的词错误率和17.2%的字符错误率。
  • 相比只针对健康数据训练的基础模型,实现了81.8%的词错误率提升。
  • 在真实的英文语言障碍患者语音数据集上实现了124%的词错误率提升。
➡️

继续阅读