CosyVoice 2:基于大语言模型的可扩展流式语音合成
📝
内容提要
本研究解决了多模态大语言模型在语音合成中的响应延迟和实时性需求,填补了现有技术在交互体验上的不足。论文提出了改进的流式语音合成模型CosyVoice 2,结合了有限标量量化和简化的模型架构,显著提升了合成质量和实时响应能力。CosyVoice 2在多语种数据集上训练,达到了人类级自然性和几乎无损的合成质量,具有重要的实际应用价值。
🏷️
标签
➡️