HyperAI超神经 ·

在线教程丨微软开源VibeVoice，可实现90分钟4角色自然对话

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

微软开源的VibeVoice是一种新型文本转语音（TTS）合成技术，能够生成高保真、多说话人的长语音。该技术采用下一token扩散方法，显著提高了长序列处理的效率和音频质量，支持最多4名说话人的对话，表现超越现有模型。用户可通过HyperAI官网体验实时语音合成服务。

🎯

🔎

文本转语音（TTS）技术在短语音合成上已有显著进展，但在长格式和多说话人对话的合成中仍面临挑战。传统方法难以实现自然的对话轮流，限制了其在播客和有声书等场景的应用。VibeVoice的推出正是为了解决这些问题，提供更自然的对话体验。

VibeVoice采用下一token扩散方法，显著提升了长序列处理的效率和音频质量。其新颖的连续语音分词器实现了高达3200倍的压缩率，确保了音频的保真度。这种技术创新使得VibeVoice在多说话人合成中表现优异，超越了现有模型。

用户可以通过HyperAI官网体验VibeVoice的实时语音合成服务，支持多种音色和语音风格调整。这为内容创作者提供了更多灵活性，尤其是在制作播客和有声书时，能够更好地满足听众的需求，拓展了TTS技术的应用场景。

❓

VibeVoice是一种新型文本转语音（TTS）合成技术，能够生成高保真、多说话人的长语音。

VibeVoice采用基于下一token扩散的方法，显著提高了长序列处理的效率和音频质量。

VibeVoice支持最多4名说话人的对话，能够合成长达90分钟的语音。

用户可以通过HyperAI官网体验实时语音合成服务，提供多种音色选择和语音风格调整功能。

VibeVoice在跨语言应用中表现出更强的迁移能力，综合表现超越现有的开源与专有对话模型。

VibeVoice生成的音频音色丰富，语调自然，能够捕捉真实对话氛围。

🏷️