通过有效的文本数据利用和潜在合成提高端到端语音处理效果

原文约400字,阅读约需1分钟。发表于:

通过训练一个转换文本数据的潜在合成器,我们提出了一种高效的文本数据利用框架 Latent Synthesis (LaSyn),用于 E2E 语音处理模型。在低资源自动语音识别(ASR)和口语理解(SLU)任务中,LaSyn 通过为模型训练提供了伪声学表示的文本数据,分别在不同测试集上使 E2E 基线的词错误率降低了 22.3% 以上,并提高了意图分类准确率 4.1% 和槽位填充准确率 3.8%,在 STOP 上分别提高了 4.49% 和 2.25% 的准确率。同时,LaSyn 使用更少的参数,取得了与现有最先进作品相媲美的结果,证明了增强训练数据的质量。

LaSyn是一种高效的文本数据利用框架,通过训练潜在合成器为E2E语音处理模型提供伪声学表示的文本数据。在低资源ASR和SLU任务中,LaSyn能够显著提高模型的识别准确率和填充准确率,并使用更少的参数取得了与现有最先进作品相媲美的结果。

相关推荐 去reddit讨论