17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

微软开源的VibeVoice项目能够生成最长90分钟的自然多人对话音频,支持最多4个说话人,突破传统TTS限制,兼容中英文及多语言合成,适合播客和教育内容制作。

🎯

关键要点

  • 微软开源的VibeVoice项目能够生成最长90分钟的自然多人对话音频。
  • 支持最多4个不同说话人的自然对话,音质表现力达到前沿水平。
  • 采用创新的连续语音分词器和next-token扩散框架,突破传统TTS系统的限制。
  • 支持中英文及多语言合成,能够生成自然的跨语言对话。
  • 实时流式TTS模式,首音延迟约300ms,适合实时对话应用。
  • 模型托管在Hugging Face上,支持在线体验和本地部署。
  • 仅供研究使用,存在深度伪造风险,用户需负责任地使用。
  • 适用于播客制作、有声书、教育内容、语音助手和视频配音等场景。

延伸问答

VibeVoice项目的主要功能是什么?

VibeVoice项目能够生成最长90分钟的自然多人对话音频,支持最多4个说话人。

VibeVoice如何突破传统TTS系统的限制?

VibeVoice采用创新的连续语音分词器和next-token扩散框架,提升了说话人一致性和自然对话的生成能力。

VibeVoice支持哪些语言?

VibeVoice核心支持中文和英文,并实验性支持德语、法语、意大利语等9种语言。

VibeVoice的实时流式TTS模式有什么特点?

VibeVoice的实时流式TTS模式首音延迟约300ms,适合实时对话应用。

VibeVoice适合哪些应用场景?

VibeVoice适用于播客制作、有声书、教育内容、语音助手和视频配音等场景。

使用VibeVoice时需要注意什么风险?

VibeVoice存在深度伪造风险,用户需负责任地使用,且仅供研究使用。

➡️

继续阅读