实时互动网 ·

IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

💡 原文中文，约5100字，阅读约需12分钟。

📝

内容提要

近年来，零样本文本转语音（TTS）系统取得进展，但仍存在局部错误。西工大与喜马拉雅合作提出细粒度偏好优化（FPO），有效修复问题片段，提升语音合成的鲁棒性和数据效率。实验结果显示，FPO在可懂度和自然度上显著优于传统方法。

🎯

❓

细粒度偏好优化（FPO）是一种新的偏好优化方法，将文本转语音（TTS）的偏好学习从整句级别推进到token/片段级别，旨在精准定位和修复语音合成中的问题片段。

FPO通过精准定位和修复问题片段，避免对良好生成片段的无效更新，从而显著提升了零样本TTS的鲁棒性和数据效率。

FPO与传统方法不同，它不再假设一句语音是整体好或坏，而是通过精细化标注和选择性优化，将学习信号集中在真正存在问题的片段上。

实验结果显示，FPO在可懂度和自然度上显著优于传统方法，尤其在降低错误率和bad case比例方面表现突出。

FPO在小规模偏好数据实验中展现出明显的数据效率优势，使用更少的训练样本就能达到甚至超过其他方法的效果。

FPO的提出背景是为了应对零样本TTS系统在真实使用场景中频繁出现的局部错误，提升生成语音的稳定性和自然度。

🏷️

微软的新开发者优化版Windows更深入地拥抱Linux
微软在Build开发者大会上宣布，将Linux子系统进一步整合到Windows中，推出优化的Windows 11开发者体验，包括Linux容器、命令行工具...
一分钟读论文：《元认知记忆策略优化》
中国科学技术大学、浙江大学和腾讯合作的一篇论文《Meta-Cognitive Memory Policy Optimization for Long-Ho...
六月Android更新：全新个性化和安全功能上线
谷歌最近发布了Android更新，新增假冒来电检测、Circle to Search快速查找服装、儿童安全功能的个人安全应用、Google Play图书的...
GitHub如何计划重新赢回开发者
GitHub近期频繁出现故障，影响搜索和CI/CD管道。为应对增长，GitHub正在迁移至微软Azure云，重构系统以提升性能，目标是处理比目前多30倍的...
微软非常非常非常希望开发者再次热爱Windows
微软在Build开发者大会上推出了新功能，重点包括默认启用的暗黑模式和优化的Windows 11体验。新设置旨在减少干扰，提升开发效率，预配置了VS Co...
微软通过智能终端重新定义Windows终端
微软正在考虑在Windows 11中重新设计终端，推出智能终端。开发者可以直接在终端中使用编码助手，如GitHub Copilot，实时检测错误，简化工作...