小红花·文摘 - 小红花技术领袖俱乐部

本研究提出DiffCSS框架，解决了对话语音合成系统缺乏多样性和自然感的问题。DiffCSS结合扩散模型和语言模型，能够生成多样化且表现力丰富的语音，实验结果表明其在多样性和上下文一致性方面优于现有系统。

DiffCSS: Diverse and Expressive Conversational Speech Synthesis Based on Diffusion Models

BriefGPT - AI 论文速递 ·

本研究提出JELLY框架，解决对话语音合成中的上下文和情感识别问题。通过微调大型语言模型，JELLY能够自然生成符合对话情感的语音，实验结果表明其在情感上下文建模方面表现优异。

JELLY: A Conversational Speech Synthesis Framework Integrating Emotion Recognition and Contextual Reasoning with Large Language Models

BriefGPT - AI 论文速递 ·

本文提出了情感对话语音合成模型（ECSS）和共情式对话语音合成（EDSS），通过引入情感上下文和对比学习来提升情感理解与表达。研究表明，这些模型在合成自然语音和情感表达方面优于传统方法，强调了情感注释和上下文理解的重要性。

生成性表达式会话语音合成

BriefGPT - AI 论文速递 ·