💡 原文中文,约5100字,阅读约需12分钟。
📝

内容提要

近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段,提升语音合成的鲁棒性和数据效率。实验结果显示,FPO在可懂度和自然度上显著优于传统方法。

🎯

关键要点

  • 近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。
  • 西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段。
  • FPO在可懂度和自然度上显著优于传统方法。
  • FPO将TTS的偏好学习从整句级别推进到token/片段级别。
  • FPO通过精准定位和修复问题片段,提升鲁棒性和数据效率。
  • 传统的整句偏好优化方法存在效率低下和对良好片段的干扰问题。
  • FPO采用细粒度的错误分析与标注,确保标记准确。
  • FPO在多个主流零样本TTS系统上进行实验,显示出显著的性能提升。
  • FPO在小规模偏好数据实验中展现出明显的数据效率优势。
  • FPO的优势源于对优化目标的重新定义,避免了对良好生成片段的无效更新。