dotNET跨平台 ·

17.3K Star！微软开源VibeVoice，AI语音合成新突破，支持90分钟多人对话和实时流式TTS

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

微软开源的VibeVoice项目能够生成最长90分钟的自然多人对话音频，支持最多4个说话人，突破传统TTS限制，兼容中英文及多语言合成，适合播客和教育内容制作。

🎯

🔎

VibeVoice采用了创新的连续语音分词器和next-token扩散框架，使得生成的音频在自然度和表现力上达到了新的高度。这种技术特别适合播客制作、有声书和教育内容，能够有效提升用户体验。

尽管VibeVoice在语音合成方面表现出色，但微软明确指出该模型仅供研究使用，存在深度伪造的风险。用户在使用时需谨慎，避免将其用于商业或敏感场合，以防滥用。

VibeVoice支持中英文及多种语言的合成，能够生成自然的跨语言对话。然而，核心支持仍然局限于中文和英文，其他语言的输出可能存在不稳定性，用户需注意这一点。

❓

VibeVoice项目能够生成最长90分钟的自然多人对话音频，支持最多4个说话人。

VibeVoice采用创新的连续语音分词器和next-token扩散框架，提升了说话人一致性和自然对话的生成能力。

VibeVoice核心支持中文和英文，并实验性支持德语、法语、意大利语等9种语言。

VibeVoice的实时流式TTS模式首音延迟约300ms，适合实时对话应用。

VibeVoice适用于播客制作、有声书、教育内容、语音助手和视频配音等场景。

VibeVoice存在深度伪造风险，用户需负责任地使用，且仅供研究使用。

🏷️