Hard-Synth:使用零样本TTS和LLM合成多样化的困难样本以增强自动语音识别

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了Hard-Synth方法,利用大语言模型生成文本,并结合零样本文本到语音技术,解决了自动语音识别系统在文本数据稀缺时的标记成本问题。实验结果表明,该方法显著提升了Conformer模型的表现,降低了词错误率,提高了数据效率。

🎯

关键要点

  • 本研究提出了Hard-Synth方法,利用大语言模型生成文本,结合零样本文本到语音技术。

  • Hard-Synth方法解决了自动语音识别系统在文本数据稀缺时的标记成本问题。

  • 实验结果表明,Hard-Synth显著提升了Conformer模型的表现,降低了词错误率。

  • 该方法提高了数据效率,并在降低ASR偏差方面具有潜在影响。

➡️

继续阅读