💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
Dia2是Nari Labs开发的开源文本转语音模型,专注于流式对话音频,支持在接收初始输入后生成音频,并保持说话者一致性。提供1B和2B模型检查点及快速启动指南,适用于实时语音助手和对话系统。
🎯
关键要点
- Dia2是Nari Labs开发的开源文本转语音模型,专注于流式对话音频。
- 模型在接收初始输入后即可开始生成音频,支持音频前缀条件以保持说话者一致性。
- 提供1B和2B模型检查点、示例脚本和快速启动指南,适用于研究和部署。
- 流式生成:在不等待完整文本的情况下开始合成,减少响应延迟。
- 条件生成:支持音频前缀条件以保持说话者一致性和更流畅的对话流。
- 提供不同规模的模型检查点(1B、2B),以平衡质量和资源使用。
- 以Apache-2.0许可证发布,适用于研究和非专有使用。
- 适用于实时语音助手和虚拟角色,提高自然性和响应性。
- 在基于语音的对话系统中生成回复,处理多轮上下文。
- 用于文本转语音条件生成、模型比较和语音控制实验的研究和教学。
➡️