本文介绍了通用语音模型(USM),该模型在100多种语言中进行语音识别和文本转换,表现优于Whisper模型。研究探讨了大型语言模型(LLMs)与自动语音识别(ASR)系统结合的潜力,并提出了Dynamic-SUPERB基准以评估语音处理任务,展示了SpeechVerse模型在多任务训练中的优越性能,减少了对标注数据的依赖。
完成下面两步后,将自动完成登录并继续当前操作。