关于自动语音识别中合成数据生成的文本转语音模型选择问题
原文中文,约300字,阅读约需1分钟。发表于: 。神经文本转语音(TTS)系统的快速发展使其在自动语音识别(ASR)或口译等自然语言处理领域的应用成为可能。本文通过比较五种不同的 TTS 解码器架构,探讨其对基于 CTC 的语音识别训练的影响,并与可计算的指标如 NISQA MOS 和可理解性进行识别结果比较,发现与 ASR 性能之间并无明确关系。此外,我们还观察到在数据生成方面,自回归解码优于非自回归解码,并提出了一种衡量 TTS 泛化能力的方法。
神经文本转语音(TTS)系统的发展使其在自然语言处理领域的应用成为可能。本文通过比较五种不同的TTS解码器架构,探讨其对语音识别训练的影响,并与可计算的指标进行识别结果比较,发现与ASR性能之间并无明确关系。同时,自回归解码在数据生成方面优于非自回归解码,并提出了一种衡量TTS泛化能力的方法。