TODM: 基于高效超网络的一次训练多次部署的 RNN-T 压缩方法,用于设备上的 ASR 模型
原文中文,约300字,阅读约需1分钟。发表于: 。本文介绍了一种名为 TODM(Train Once Deploy Many)的新方法,用于高效训练多种硬件友好的设备上自动语音识别模型,通过适应性丢弃、Alpha 散度知识蒸馏和 ScaledAdam 优化器等技术改进了 TODM Supernet 的效果,并在 LibriSpeech 上的比较实验证明了该方法的有效性。
本文介绍了最近开发的RNN-T模型,具有较小的GPU内存消耗、更好的初始化策略和先进的编码器建模。该模型在识别准确性和延迟方面优于混合模型。研究还比较了几种使用新领域纯文本数据的方法,发现利用特定领域文本生成的文本到语音更新RNN-T的预测和联合网络最有效。