微软开源的VibeVoice是一种新型文本转语音(TTS)合成技术,能够生成高保真、多说话人的长语音。该技术采用下一token扩散方法,显著提高了长序列处理的效率和音频质量,支持最多4名说话人的对话,表现超越现有模型。用户可通过HyperAI官网体验实时语音合成服务。
微软的VibeVoice-1.5B是开源文本转语音技术的重大进展,支持长达90分钟的多说话人音频生成,具备跨语言和歌唱合成能力,采用流式架构,强调情感表现,适合播客和对话场景。
本文介绍了多种基于扩散模型的文本转语音(TTS)技术,如StyleTTS、Diff-TTS和NoreSpeech。这些模型通过自监督学习和噪声鲁棒性,显著提升了语音合成的自然度和质量,尤其在多说话人环境中表现优异。实验结果表明,这些新模型在速度和音频质量上均优于现有技术。
这款开源项目的实时语音克隆工具能够在5秒内生成任意文本的语音,支持多说话人,安装和配置简单,适合个人和商业用途,提供无限的创意可能性。
完成下面两步后,将自动完成登录并继续当前操作。