Apple Machine Learning Research ·

SpeakStream：交错数据的流式文本转语音

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

随着语音前端与大型语言模型的整合，本文提出了一种流式文本转语音（TTS）系统，能够实时生成音频，适用于对话AI等应用。实验结果显示，该系统在音质上与传统批处理TTS系统相当，同时具备流式处理能力。

🎯

🔎

流式文本转语音系统的最大优势在于其实时处理能力，适合对话AI等需要快速响应的应用场景。与传统的批处理系统相比，该系统能够在接收文本的同时生成音频，减少了等待时间，提高了用户体验。

传统文本转语音系统需要完整的语句才能生成音频，这在处理大型语言模型输出时会造成技术障碍。本文提出的交错文本与语音的解码器架构有效解决了这一问题，使得系统能够逐步生成音频，提升了流式处理的灵活性。

实验结果表明，流式文本转语音系统在音质上与传统批处理系统相当，这意味着新技术不仅在速度上有优势，同时也能保持音频质量。这为未来的对话AI应用提供了更为强大的技术支持。

❓

流式文本转语音系统是一种能够实时生成音频的技术，适用于将流式文本转换为语音。

流式文本转语音系统能够逐步处理文本并实时生成语音，而传统TTS系统需要完整的语句才能生成音频。

该系统通过对齐文本转录与语音生成的交错数据进行下一步预测进行训练。

该系统适合实时应用，如对话AI代理，能够实时生成语音输出。

实验结果表明，该系统在音质上与传统批处理TTS系统相当。

该系统采用新颖的仅解码器架构，通过对齐数据进行下一步预测进行训练。

🏷️