阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

阿里通义实验室发布开源语音大模型项目FunAudioLLM,包含SenseVoice和CosyVoice两个模型。SenseVoice支持50种语言识别和情感辨识,效果优于Whisper模型。CosyVoice支持多语言、音色和情感控制,生成模拟音色和情感细节。FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。CosyVoice的合成音频内容一致性高,情感控制能力强。SenseVoice具备多种语音理解能力,包括自动语音识别、情感识别和音频事件检测。相关模型已在GitHub上开源。

🎯

关键要点

  • 阿里通义实验室发布开源语音大模型项目FunAudioLLM,包含SenseVoice和CosyVoice两个模型。
  • SenseVoice支持50种语言识别和情感辨识,效果优于Whisper模型,中文与粤语提升50%以上。
  • CosyVoice支持多语言、音色和情感控制,生成模拟音色和情感细节,效果显著优于传统语音生成模型。
  • FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。
  • CosyVoice的合成音频内容一致性高,情感控制能力强。
  • SenseVoice具备多种语音理解能力,包括自动语音识别、情感识别和音频事件检测。
  • FunAudioLLM支持多种人机交互应用场景,如多语种会议通译和即时语音翻译服务。
  • 通过融合SenseVoice和CosyVoice,能够开发情感语音聊天应用程序,提升对话的自然性。
  • 结合SenseVoice和CosyVoice,可以创造互动式播客电台,实时捕捉对话和情感。
  • 借助LLM和CosyVoice的结合,可以实现更高表现力的有声读物,带来情感丰富的听觉体验。
  • CosyVoice支持多达5种语言,并提供细粒度的情感控制。
  • SenseVoice具备自动语音识别、语言识别、情感识别和音频事件检测等功能。
  • SenseVoice在多语言语音识别性能上优于Whisper,推理延迟极低。
  • SenseVoice在情感识别和音频事件检测方面表现出色,支持多种情绪类型和事件检测。
  • 相关模型已在ModelScope和Huggingface上开源,并在GitHub上发布了训练、推理和微调代码。
➡️

继续阅读