OWSM-CTC: An Open-Source Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification
原文约100字/词,阅读约需1分钟。发表于: 。基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在 ST 上提高了 25%的相对改进,在推断中更为稳健且速度更快,同时也对长形式 ASR 结果有 20 倍的加速。
基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在ST上提高了25%的相对改进。该模型在推断中更为稳健且速度更快,同时也对长形式ASR结果有20倍的加速。