生成性表达式会话语音合成

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

我们提出了一种新颖的情感对话语音合成模型(ECSS),通过引入异构图的情感上下文建模机制以提高情感理解。使用对比学习的情感渲染器模块来推断目标话语的准确情感风格,解决了数据稀缺性问题,并注释了现有对话数据集(DailyTalk)上的附加情感信息。客观和主观评价表明,我们的模型在理解和表达情感方面优于基线模型,并强调了全面的情感注释的重要性。

🎯

关键要点

  • 提出了一种新颖的情感对话语音合成模型 (ECSS)
  • 引入异构图的情感上下文建模机制以提高情感理解
  • 使用对比学习的情感渲染器模块推断目标话语的准确情感风格
  • 解决了数据稀缺性问题
  • 对现有对话数据集 (DailyTalk) 进行了附加情感信息的注释
  • 客观和主观评价表明模型在理解和表达情感方面优于基线模型
  • 强调了全面的情感注释的重要性
➡️

继续阅读