本文探讨了通过自适应权重技术提升多语言语音识别准确性,使用预训练的wav2vec 2.0和MBART50模型。研究表明,结合无标签和有标签数据的微调方法显著提高了模型性能,尤其在资源匮乏语言的自动语音识别任务中表现优异。
阿里云通义千问团队开源了SenseVoice和CosyVoice两款语音基座模型,用于多语言语音识别和生成语音。这些模型采用Apache 2.0许可证,已在Modelscope和HuggingFace平台提供。SenseVoice的识别效果优于OpenAI Whisper模型。
完成下面两步后,将自动完成登录并继续当前操作。