本文介绍了一种基于连接主义时间分类(CTC)的非自回归语音翻译模型,采用预测感知编码和跨层注意力方法,显著提高了解码速度和翻译质量。实验结果显示,该模型在多个基准测试中优于自回归模型,具有更高的BLEU分数和加速效果。
基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在ST上提高了25%的相对改进。该模型在推断中更为稳健且速度更快,同时也对长形式ASR结果有20倍的加速。
完成下面两步后,将自动完成登录并继续当前操作。