刘悦 ·

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

阿里通义实验室开源了CosyVoice语音模型，支持自然语音生成，多语言、音色和情感控制。模型训练数据超过15万小时，支持中英日粤韩5种语言合成。提供了Windows和Mac平台的本地部署教程。推荐使用webui进行操作。

🎯

关键要点

阿里通义实验室开源了CosyVoice语音模型，支持自然语音生成和多语言合成。
CosyVoice模型训练数据超过15万小时，支持中英日粤韩5种语言合成。
模型支持one-shot音色克隆，仅需3~10秒的原始音频即可生成模拟音色。
Windows和Mac平台提供本地部署教程，推荐使用webui进行操作。
Windows平台的安装步骤包括克隆项目、安装依赖和下载模型。
MacOS平台的安装步骤类似，需通过Homebrew安装sox。
CosyVoice模型的质量代表了国内AI的最高水准，期待未来的工程化代码开源。

❓

延伸问答

CosyVoice模型支持哪些语言的合成？

CosyVoice模型支持中、英、日、粤、韩五种语言的合成。

如何在Windows平台上部署CosyVoice模型？

在Windows上部署CosyVoice需要克隆项目、安装依赖、下载模型并设置环境变量。

CosyVoice的one-shot音色克隆功能是如何工作的？

CosyVoice的one-shot音色克隆功能只需3到10秒的原始音频即可生成模拟音色。

在MacOS上如何安装CosyVoice模型？

在MacOS上安装CosyVoice需要克隆项目、安装依赖并通过Homebrew安装sox。

CosyVoice模型的训练数据量是多少？

CosyVoice模型的训练数据超过15万小时。

使用CosyVoice模型时推荐的操作方式是什么？

推荐使用webui进行操作，提供更直观和方便的体验。

🏷️

标签

CosyVoice语音模型 mac win 多语言多语言合成自然语音生成通义阿里通义实验室音色控制

➡️

继续阅读

OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...
XMOS推出搭载先进AI语音处理的VocalFusion XVF3620
XMOS 发布了新一代语音处理器 VocalFusion XVF3620，它将 AI 降噪技术与完整的片上语音处理流程相结合，即使在嘈杂、混响和动态环境中...
法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
有传言称谷歌正在研发名为Frozen v2的芯片将AI模型部分蚀刻到芯片上提高吞吐量
#人工智能谷歌也尝试将模型权重直接蚀刻到硅晶片中，谷歌正在研发的 Frozen v2 芯片 token 吞吐量是谷歌现有 TPU 单元的 6~10 倍。...
AI驱动的CLO zFab面料测量套件开放全球供应
（全球TMT 2026年07月22日讯）CLO虚拟时尚宣布，AI驱动的面料数字化解决方案CLO zFab面料测 […]
AI 圈今天最大的瓜：GPT-6 越狱攻击，被 GLM 5.2 揪出了
「GPT-6」为了考试作弊，黑进了别人的服务器#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。