💡
原文中文,约5100字,阅读约需12分钟。
📝
内容提要
近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段,提升语音合成的鲁棒性和数据效率。实验结果显示,FPO在可懂度和自然度上显著优于传统方法。
🎯
关键要点
- 近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。
- 西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段。
- FPO在可懂度和自然度上显著优于传统方法。
- FPO将TTS的偏好学习从整句级别推进到token/片段级别。
- FPO通过精准定位和修复问题片段,提升鲁棒性和数据效率。
- 传统的整句偏好优化方法存在效率低下和对良好片段的干扰问题。
- FPO采用细粒度的错误分析与标注,确保标记准确。
- FPO在多个主流零样本TTS系统上进行实验,显示出显著的性能提升。
- FPO在小规模偏好数据实验中展现出明显的数据效率优势。
- FPO的优势源于对优化目标的重新定义,避免了对良好生成片段的无效更新。