蓝点网 ·

阿里云通义千问团队开源两款语音基座模型语音识别效果优于OpenAI Whisper模型

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

阿里云通义千问团队开源了SenseVoice和CosyVoice两款语音基座模型，用于多语言语音识别和生成语音。这些模型采用Apache 2.0许可证，已在Modelscope和HuggingFace平台提供。SenseVoice的识别效果优于OpenAI Whisper模型。

🎯

关键要点

阿里云通义千问团队开源了两款语音基座模型：SenseVoice和CosyVoice。
SenseVoice用于多语言语音识别，识别效果优于OpenAI Whisper模型。
CosyVoice用于生成语音，支持跨语言语音克隆、指令跟随和情感控制。
这两款模型均采用Apache 2.0许可证，开发者和企业可免费使用。
SenseVoice支持语音识别、语种识别、情感识别和声学事件检测等功能。
SenseVoice模型训练使用超过40万小时的数据，支持50种语言。
SenseVoice具备优秀的情感识别能力，推理延迟极低，适合实时应用。
CosyVoice在多语言语音生成和指令跟随等方面表现出色。
这两款模型属于FunAudioLLM系列，旨在增强人与大型语言模型之间的自然语音交互。
模型已在Modelscope和HuggingFace平台提供，开发者可下载测试。

❓

延伸问答

SenseVoice模型的主要功能是什么？

SenseVoice模型主要用于多语言语音识别，支持语种识别、情感识别和声学事件检测等功能。

CosyVoice模型有哪些应用场景？

CosyVoice模型支持多语言语音生成、跨语言语音克隆、指令跟随和情感控制等应用场景。

这两款模型的开源许可证是什么？

这两款模型均采用Apache 2.0许可证，开发者和企业可以免费使用。

SenseVoice模型的识别效果与OpenAI Whisper模型相比如何？

SenseVoice模型的识别效果优于OpenAI Whisper模型。

这两款模型的训练数据量是多少？

SenseVoice模型训练使用了超过40万小时的数据。

开发者如何获取这两款模型？

开发者可以在Modelscope和HuggingFace平台下载这两款模型进行测试。

🏷️

标签

CosyVoice SenseVoice openai whisper 多语言语音识别开源语音基座模型通义千问阿里云阿里云通义千问团队

➡️

继续阅读

关键时刻还是靠开源模型：HuggingFace遭黑客攻击某模型拒绝审计最后靠GLM-5.2
#人工智能关键时刻还是得靠开源模型：HuggingFace 遭到黑客攻击，想要使用 Claude 进行取证分析时始终被拒绝，最终只能本地部署开源的 GL...
开源私有云软件Nextcloud遭到黑客攻击网站被黑但开发商谎称基础架构问题
#安全资讯开源私有云软件 Nextcloud 遭到黑客攻击，网站被黑但开发商谎称是基础设施架构问题。这件事发生在昨天早晨，当时 Nextcloud 被重...
A社调整Claude Team订阅成员限制起步从5人下调到2人以便更多小团队开通订阅
#人工智能 A 社宣布调整 Claude Team 团队订阅机制，从最小 5 人席位下调到 2 人席位，即现在只需要 2 个成员就可以开通团队账号。此次调...
基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
LG Uplus 与爱立信公布语音 AI 合作协议
LG Uplus 与全球电信设备公司爱立信携手合作。 LG Uplus宣布，于当地时间7月14日在瑞典斯德哥尔摩的爱立信总部签署了一项战略合作协议，旨在推...
如果AI模型开源了权重，这算不算"AI倾销"新玩法
100亿美元AI模型开源，这算不算"AI倾销"新玩法？短期狂欢背后藏着长期减速铁律前沿大模型的开源正撕裂AI圈。支持者说这是创新加速器，...