阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种
原文中文,约3700字,阅读约需9分钟。发表于: 。同音交传/AI博客/情感交互/有声读物一键搞定
阿里通义实验室发布开源语音大模型项目FunAudioLLM,包含SenseVoice和CosyVoice两个模型。SenseVoice支持50种语言识别和情感辨识,效果优于Whisper模型。CosyVoice支持多语言、音色和情感控制,生成模拟音色和情感细节。FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。CosyVoice的合成音频内容一致性高,情感控制能力强。SenseVoice具备多种语音理解能力,包括自动语音识别、情感识别和音频事件检测。相关模型已在GitHub上开源。