本文介绍了最近开发的RNN-T模型,具有较小的GPU内存消耗、更好的初始化策略和先进的编码器建模。该模型在识别准确性和延迟方面优于混合模型。研究还比较了几种使用新领域纯文本数据的方法,发现利用特定领域文本生成的文本到语音更新RNN-T的预测和联合网络最有效。
完成下面两步后,将自动完成登录并继续当前操作。