阿里云通义千问团队开源两款语音基座模型 语音识别效果优于OpenAI Whisper模型
内容提要
阿里云通义千问团队开源了SenseVoice和CosyVoice两款语音基座模型,用于多语言语音识别和生成语音。这些模型采用Apache 2.0许可证,已在Modelscope和HuggingFace平台提供。SenseVoice的识别效果优于OpenAI Whisper模型。
关键要点
-
阿里云通义千问团队开源了两款语音基座模型:SenseVoice和CosyVoice。
-
SenseVoice用于多语言语音识别,识别效果优于OpenAI Whisper模型。
-
CosyVoice用于生成语音,支持跨语言语音克隆、指令跟随和情感控制。
-
这两款模型均采用Apache 2.0许可证,开发者和企业可免费使用。
-
SenseVoice支持语音识别、语种识别、情感识别和声学事件检测等功能。
-
SenseVoice模型训练使用超过40万小时的数据,支持50种语言。
-
SenseVoice具备优秀的情感识别能力,推理延迟极低,适合实时应用。
-
CosyVoice在多语言语音生成和指令跟随等方面表现出色。
-
这两款模型属于FunAudioLLM系列,旨在增强人与大型语言模型之间的自然语音交互。
-
模型已在Modelscope和HuggingFace平台提供,开发者可下载测试。
延伸问答
SenseVoice模型的主要功能是什么?
SenseVoice模型主要用于多语言语音识别,支持语种识别、情感识别和声学事件检测等功能。
CosyVoice模型有哪些应用场景?
CosyVoice模型支持多语言语音生成、跨语言语音克隆、指令跟随和情感控制等应用场景。
这两款模型的开源许可证是什么?
这两款模型均采用Apache 2.0许可证,开发者和企业可以免费使用。
SenseVoice模型的识别效果与OpenAI Whisper模型相比如何?
SenseVoice模型的识别效果优于OpenAI Whisper模型。
这两款模型的训练数据量是多少?
SenseVoice模型训练使用了超过40万小时的数据。
开发者如何获取这两款模型?
开发者可以在Modelscope和HuggingFace平台下载这两款模型进行测试。