小红花·文摘

微软开源的VibeVoice-1.5B模型在TTS领域备受关注，能够生成90分钟的高自然度语音，支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术，MOS评分达到4.5。该模型主要面向科研和开发者，目前仅支持中英文，强调研究用途以防滥用。