Zyphra 推出 Zonos 测试版:具有高保真语音克隆功能的高度表现力 TTS 模型

Zyphra 推出 Zonos 测试版:具有高保真语音克隆功能的高度表现力 TTS 模型

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

Zonos-v0.1 是一款新发布的高保真文本转语音 (TTS) 模型,支持多语言,基于 200,000 小时语音数据训练,能够生成自然且富有表现力的语音,用户可控制音调和情感,优化了实时性能,适用于内容创作和辅助技术等领域。

🎯

关键要点

  • Zonos-v0.1 是一款新发布的高保真文本转语音 (TTS) 模型,支持多语言。
  • 该模型基于 200,000 小时语音数据训练,能够生成自然且富有表现力的语音。
  • 用户可控制音调和情感,优化了实时性能,适用于内容创作和辅助技术等领域。
  • Zonos-v0.1 包含两个具有高保真语音克隆功能的实时 TTS 模型,分别为 16 亿参数的变换器模型和混合模型。
  • 模型支持多种语言,包括英语、中文、日语、法语和德语,提升了全球应用的通用性。
  • 用户可以通过简短的说话人样本生成语音,实现零样本 TTS。
  • 模型允许用户微调音调、频率范围和情绪基调,以创造更具表现力的语音输出。
  • 在 RTX 4090 上以大约两倍实时速度运行,模型针对实时应用进行了优化。
  • 基于 Gradio 的 WebUI 简化了语音生成,使更广泛的用户可以使用。
  • 使用提供的 Docker 设置可以轻松安装和部署模型,确保轻松集成到现有工作流程中。
  • Zonos-v0.1 可提供高质量的语音生成,通常可与领先的专有系统相媲美。
  • 与其他模型的比较凸显了 Zonos 生成清晰、自然且富有表现力的语音的能力。
  • 混合模型具有更低的延迟和更低的内存使用率,基于 Mamba2 架构,最大限度地减少了对注意力机制的依赖。
  • Zyphra 为开发人员和研究人员提供了推进 TTS 应用程序的强大资源,结合了语音克隆、多语言支持和细粒度音频控制。
➡️

继续阅读