小红花·文摘

本文介绍了最近开发的RNN-T模型，具有较小的GPU内存消耗、更好的初始化策略和先进的编码器建模。该模型在识别准确性和延迟方面优于混合模型。研究还比较了几种使用新领域纯文本数据的方法，发现利用特定领域文本生成的文本到语音更新RNN-T的预测和联合网络最有效。