小红花·文摘

本文介绍了一种基于语音活动投影（VAP）模型的实时交替预测系统，结合神经声学模型与大型语言模型（LLM），实现更自然的口语对话交互。同时，研究提出了跨语言语音合成框架和多语言模型，优化了多语言环境下的性能，展示了在资源匮乏情况下的有效性。