小红花·文摘 - 小红花技术领袖俱乐部

VibeVoice-1.5B：微软开源文本转语音模型，可合成四个不同说话者长达 90 分钟的语音

VibeVoice-1.5B：微软开源文本转语音模型，可合成四个不同说话者长达 90 分钟的语音

实时互动网 ·

本研究提出了一种名为MultiActor-Audiobook的零样本有声书生成方法，能够自动生成具有一致性和表现力的语调与情感，无需额外训练，从而提升有声书的情感表现力。

Multi-Actor Audiobook: Zero-Shot Audiobook Generation Based on Multiple Speakers

BriefGPT - AI 论文速递 ·

推进可扩展的文本转语音合成：Llasa 基于 Transformer 的框架可提高语音质量和情感表达能力

推进可扩展的文本转语音合成：Llasa 基于 Transformer 的框架可提高语音质量和情感表达能力

实时互动网 ·