Hard-Synth:使用零样本TTS和LLM合成多样化的困难样本以增强自动语音识别
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了Hard-Synth方法,利用大语言模型生成文本,并结合零样本文本到语音技术,解决了自动语音识别系统在文本数据稀缺时的标记成本问题。实验结果表明,该方法显著提升了Conformer模型的表现,降低了词错误率,提高了数据效率。
🎯
关键要点
-
本研究提出了Hard-Synth方法,利用大语言模型生成文本,结合零样本文本到语音技术。
-
Hard-Synth方法解决了自动语音识别系统在文本数据稀缺时的标记成本问题。
-
实验结果表明,Hard-Synth显著提升了Conformer模型的表现,降低了词错误率。
-
该方法提高了数据效率,并在降低ASR偏差方面具有潜在影响。
➡️