本研究介绍了一种新方法PRoDeliberation,利用连接主义时间分类的解码策略和降噪目标训练非自回归思考模型。PRoDeliberation实现了并行解码的延迟降低,同时保持了修正自回归思考系统的自动语音识别误识别的能力。降噪训练的设计使得PRoDeliberation能够克服小型ASR设备的限制,并对系统的每个组件的必要性进行了分析。
基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在ST上提高了25%的相对改进。该模型在推断中更为稳健且速度更快,同时也对长形式ASR结果有20倍的加速。
完成下面两步后,将自动完成登录并继续当前操作。