通过有效的文本数据利用和潜在合成提高端到端语音处理效果

原文约400字，阅读约需1分钟。发表于：。

通过训练一个转换文本数据的潜在合成器，我们提出了一种高效的文本数据利用框架 Latent Synthesis (LaSyn)，用于 E2E 语音处理模型。在低资源自动语音识别（ASR）和口语理解（SLU）任务中，LaSyn 通过为模型训练提供了伪声学表示的文本数据，分别在不同测试集上使 E2E 基线的词错误率降低了 22.3% 以上，并提高了意图分类准确率 4.1% 和槽位填充准确率 3.8%，在 STOP 上分别提高了 4.49% 和 2.25% 的准确率。同时，LaSyn 使用更少的参数，取得了与现有最先进作品相媲美的结果，证明了增强训练数据的质量。

LaSyn是一种高效的文本数据利用框架，通过训练潜在合成器为E2E语音处理模型提供伪声学表示的文本数据。在低资源ASR和SLU任务中，LaSyn能够显著提高模型的识别准确率和填充准确率，并使用更少的参数取得了与现有最先进作品相媲美的结果。