量子位 ·

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

阿里通义实验室发布开源语音大模型项目FunAudioLLM，包含SenseVoice和CosyVoice两个模型。SenseVoice支持50种语言识别和情感辨识，效果优于Whisper模型。CosyVoice支持多语言、音色和情感控制，生成模拟音色和情感细节。FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。CosyVoice的合成音频内容一致性高，情感控制能力强。SenseVoice具备多种语音理解能力，包括自动语音识别、情感识别和音频事件检测。相关模型已在GitHub上开源。

🎯

关键要点

阿里通义实验室发布开源语音大模型项目FunAudioLLM，包含SenseVoice和CosyVoice两个模型。
SenseVoice支持50种语言识别和情感辨识，效果优于Whisper模型，中文与粤语提升50%以上。
CosyVoice支持多语言、音色和情感控制，生成模拟音色和情感细节，效果显著优于传统语音生成模型。
FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。
CosyVoice的合成音频内容一致性高，情感控制能力强。
SenseVoice具备多种语音理解能力，包括自动语音识别、情感识别和音频事件检测。
FunAudioLLM支持多种人机交互应用场景，如多语种会议通译和即时语音翻译服务。
通过融合SenseVoice和CosyVoice，能够开发情感语音聊天应用程序，提升对话的自然性。
结合SenseVoice和CosyVoice，可以创造互动式播客电台，实时捕捉对话和情感。
借助LLM和CosyVoice的结合，可以实现更高表现力的有声读物，带来情感丰富的听觉体验。
CosyVoice支持多达5种语言，并提供细粒度的情感控制。
SenseVoice具备自动语音识别、语言识别、情感识别和音频事件检测等功能。
SenseVoice在多语言语音识别性能上优于Whisper，推理延迟极低。
SenseVoice在情感识别和音频事件检测方面表现出色，支持多种情绪类型和事件检测。
相关模型已在ModelScope和Huggingface上开源，并在GitHub上发布了训练、推理和微调代码。

❓

延伸问答

FunAudioLLM项目包含哪些模型？

FunAudioLLM项目包含SenseVoice和CosyVoice两个模型。

SenseVoice的主要功能是什么？

SenseVoice主要用于高精度多语言语音识别、情感辨识和音频事件检测。

CosyVoice与传统语音生成模型相比有什么优势？

CosyVoice在音色和情感控制方面显著优于传统语音生成模型，能够生成更自然流畅的语音。

FunAudioLLM可以应用于哪些场景？

FunAudioLLM可用于多语言语音翻译、情绪语音对话、互动播客和有声读物等场景。

CosyVoice支持多少种语言的语音生成？

CosyVoice支持中英日粤韩五种语言的语音生成。

SenseVoice在多语言语音识别性能上与Whisper相比如何？

SenseVoice在多语言语音识别性能上优于Whisper，推理延迟极低。

🏷️

继续阅读

Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA wants to make cotton the new beef tallow
In between beef tallow fries, raw milk, and vaccine denialism, Make America H...
A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling
Discover three post-hoc methods for closing the gap between confidence and accuracy.
What do you mean my new smart scale is ‘built for GLP-1 users’?
This is Optimizer, a weekly newsletter sent from Verge senior reviewer Victor...