隐私受限语音转语音翻译系统的预设语音匹配
原文中文,约400字,阅读约需1分钟。发表于: 。最近,对于工业环境中的语音到语音翻译(S2ST)系统的需求日益增加。本研究提出了一种受到规范管控的 S2ST 框架,称为 Preset-Voice Matching(PVM)。通过首先将输入的语音与目标语言中一个类似的已同意的说话者的声音进行匹配,PVM 在 S2ST 中消除了跨语言语音克隆。通过这种分离,PVM 避免了对输入说话者进行克隆,确保 PVM...
本研究提出了一种受到规范管控的语音到语音翻译(S2ST)框架,称为Preset-Voice Matching(PVM),通过匹配输入语音与目标语言中类似的已同意的说话者的声音,消除了跨语言语音克隆。PVM避免了对输入说话者进行克隆,确保系统符合规定并降低滥用风险。实验结果表明,在多说话者环境中,PVM能够显著提高S2ST系统的运行时间和合成语音的自然度。PVM是第一个明确针对动态S2ST任务,利用类似匹配的预设声音的受到规范管控的S2ST框架。