阿里云通义千问团队开源两款语音基座模型 语音识别效果优于OpenAI Whisper模型

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

阿里云通义千问团队开源了SenseVoice和CosyVoice两款语音基座模型,用于多语言语音识别和生成语音。这些模型采用Apache 2.0许可证,已在Modelscope和HuggingFace平台提供。SenseVoice的识别效果优于OpenAI Whisper模型。

🎯

关键要点

  • 阿里云通义千问团队开源了两款语音基座模型:SenseVoice和CosyVoice。

  • SenseVoice用于多语言语音识别,识别效果优于OpenAI Whisper模型。

  • CosyVoice用于生成语音,支持跨语言语音克隆、指令跟随和情感控制。

  • 这两款模型均采用Apache 2.0许可证,开发者和企业可免费使用。

  • SenseVoice支持语音识别、语种识别、情感识别和声学事件检测等功能。

  • SenseVoice模型训练使用超过40万小时的数据,支持50种语言。

  • SenseVoice具备优秀的情感识别能力,推理延迟极低,适合实时应用。

  • CosyVoice在多语言语音生成和指令跟随等方面表现出色。

  • 这两款模型属于FunAudioLLM系列,旨在增强人与大型语言模型之间的自然语音交互。

  • 模型已在Modelscope和HuggingFace平台提供,开发者可下载测试。

延伸问答

SenseVoice模型的主要功能是什么?

SenseVoice模型主要用于多语言语音识别,支持语种识别、情感识别和声学事件检测等功能。

CosyVoice模型有哪些应用场景?

CosyVoice模型支持多语言语音生成、跨语言语音克隆、指令跟随和情感控制等应用场景。

这两款模型的开源许可证是什么?

这两款模型均采用Apache 2.0许可证,开发者和企业可以免费使用。

SenseVoice模型的识别效果与OpenAI Whisper模型相比如何?

SenseVoice模型的识别效果优于OpenAI Whisper模型。

这两款模型的训练数据量是多少?

SenseVoice模型训练使用了超过40万小时的数据。

开发者如何获取这两款模型?

开发者可以在Modelscope和HuggingFace平台下载这两款模型进行测试。

➡️

继续阅读