一种非自回归的联结语音识别与语音合成模型
📝
内容提要
本研究解决了自动语音识别(STT)与语音合成(TTS)之间的建模问题,提出了一种全新的多模态框架,能够独立或共同处理语音和文本数据。通过引入迭代优化策略,模型显著提升了STT和TTS的性能,实现了对两者任务的有效处理,超越了STT特定基线,在多个评估指标上具备竞争力。
➡️
本研究解决了自动语音识别(STT)与语音合成(TTS)之间的建模问题,提出了一种全新的多模态框架,能够独立或共同处理语音和文本数据。通过引入迭代优化策略,模型显著提升了STT和TTS的性能,实现了对两者任务的有效处理,超越了STT特定基线,在多个评估指标上具备竞争力。