微软的VibeVoice-1.5B是开源文本转语音技术的重大进展,支持长达90分钟的多说话人音频生成,具备跨语言和歌唱合成能力,采用流式架构,强调情感表现,适合播客和对话场景。
本研究提出了一种名为MultiActor-Audiobook的零样本有声书生成方法,能够自动生成具有一致性和表现力的语调与情感,无需额外训练,从而提升有声书的情感表现力。
研究表明,扩展推理时间计算可提升语音合成质量。Llasa 模型采用单级 TTS 架构,优化语音标记生成,增强自然度和情感表现。实验结果显示该模型在多个指标上表现优异,鼓励进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。