小红花·文摘

阿里通义实验室发布开源语音大模型项目FunAudioLLM，包含SenseVoice和CosyVoice两个模型。SenseVoice支持50种语言识别和情感辨识，效果优于Whisper模型。CosyVoice支持多语言、音色和情感控制，生成模拟音色和情感细节。FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。CosyVoice的合成音频内容一致性高，情感控制能力强。SenseVoice具备多种语音理解能力，包括自动语音识别、情感识别和音频事件检测。相关模型已在GitHub上开源。