💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

Dia2是Nari Labs开发的开源文本转语音模型,专注于流式对话音频,支持在接收初始输入后生成音频,并保持说话者一致性。提供1B和2B模型检查点及快速启动指南,适用于实时语音助手和对话系统。

🎯

关键要点

  • Dia2是Nari Labs开发的开源文本转语音模型,专注于流式对话音频。
  • 模型在接收初始输入后即可开始生成音频,支持音频前缀条件以保持说话者一致性。
  • 提供1B和2B模型检查点、示例脚本和快速启动指南,适用于研究和部署。
  • 流式生成:在不等待完整文本的情况下开始合成,减少响应延迟。
  • 条件生成:支持音频前缀条件以保持说话者一致性和更流畅的对话流。
  • 提供不同规模的模型检查点(1B、2B),以平衡质量和资源使用。
  • 以Apache-2.0许可证发布,适用于研究和非专有使用。
  • 适用于实时语音助手和虚拟角色,提高自然性和响应性。
  • 在基于语音的对话系统中生成回复,处理多轮上下文。
  • 用于文本转语音条件生成、模型比较和语音控制实验的研究和教学。
➡️

继续阅读