OWSM-CTC:一种用于语音识别、翻译和语种识别的开放式编码器语音基础模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在ST上提高了25%的相对改进。该模型在推断中更为稳健且速度更快,同时也对长形式ASR结果有20倍的加速。

🎯

关键要点

  • 新型仅编码器语音模型(OWSM-CTC)基于连接主义时间分类(CTC)
  • 在多语言自动语音识别(ASR)、语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果
  • 在语音翻译(ST)任务上实现了25%的相对改进
  • 模型在推断中更为稳健且速度更快
  • 对长形式ASR结果有20倍的加速
➡️

继续阅读