HyperAI超神经 ·

在线教程 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音，重新定义TTS技术边界

Q: VibeVoice-1.5B模型适合哪些用户群体？

该模型主要面向科研与开发者社区。

Q: VibeVoice-1.5B模型支持哪些语言？

目前该模型仅支持中英文。

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

微软开源的VibeVoice-1.5B模型在TTS领域备受关注，能够生成90分钟的高自然度语音，支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术，MOS评分达到4.5。该模型主要面向科研和开发者，目前仅支持中英文，强调研究用途以防滥用。

🎯

关键要点

微软开源的VibeVoice-1.5B模型在TTS领域引起关注，能够生成90分钟的高自然度语音，支持4位说话者。
模型的核心创新在于双Tokenizer架构和扩散解码技术，MOS评分达到4.5。
VibeVoice-1.5B主要面向科研与开发者，支持中英文，强调研究用途以防滥用。
模型无法处理语音重叠或生成背景音效，内置免责声明和水印技术。
教程已上线至HyperAI超神经官网，用户可通过链接一键部署和运行Demo。

🔎

延伸解读

技术创新与应用前景

VibeVoice-1.5B模型的双Tokenizer架构和扩散解码技术为TTS领域带来了新的可能性。其高自然度语音生成能力，尤其适用于播客和对话式AI等应用，能够提升用户体验。开发者可以利用这一技术进行更复杂的语音交互设计，推动相关领域的发展。

使用限制与风险

尽管VibeVoice-1.5B在语音生成方面表现出色，但其无法处理语音重叠和背景音效的限制可能影响某些应用场景的效果。此外，微软强调该模型仅供研究用途，用户在使用时需注意遵循相关规定，以防技术滥用。

部署与使用注意事项

用户在部署VibeVoice-1.5B模型时，需确保选择合适的硬件配置，如NVIDIA GeForce RTX 4090，以获得最佳性能。同时，实名认证是使用API功能的前提，用户应提前做好准备，以便顺利进行语音生成实验。

❓

延伸问答

VibeVoice-1.5B模型的主要功能是什么？

VibeVoice-1.5B模型能够一次性生成长达90分钟的高自然度语音，并支持最多4位不同说话者的对话。

VibeVoice-1.5B的核心创新技术有哪些？

该模型的核心创新在于双Tokenizer架构和扩散解码技术。

VibeVoice-1.5B模型的MOS评分是多少？

VibeVoice-1.5B的官方盲测MOS评分高达4.5。

VibeVoice-1.5B模型适合哪些用户群体？