小红花·文摘

本文介绍了通用语音模型（USM），该模型在100多种语言中进行语音识别和文本转换，表现优于Whisper模型。研究探讨了大型语言模型（LLMs）与自动语音识别（ASR）系统结合的潜力，并提出了Dynamic-SUPERB基准以评估语音处理任务，展示了SpeechVerse模型在多任务训练中的优越性能，减少了对标注数据的依赖。