阿里通义实验室发布开源语音大模型项目FunAudioLLM,包含SenseVoice和CosyVoice两个模型。SenseVoice支持50种语言识别和情感辨识,效果优于Whisper模型。CosyVoice支持多语言、音色和情感控制,生成模拟音色和情感细节。FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。CosyVoice的合成音频内容一致性高,情感控制能力强。SenseVoice具备多种语音理解能力,包括自动语音识别、情感识别和音频事件检测。相关模型已在GitHub上开源。
完成下面两步后,将自动完成登录并继续当前操作。