基于实时MRI的发音运动合成语音:MRI2Speech
📝
内容提要
本研究解决了以实时MRI为基础的语音合成模型依赖于嘈杂真实语音的问题,导致语音可懂性差。论文提出了一种新方法,适应多模态自监督AV-HuBERT模型进行文本预测,并结合新的基于流的时长预测器,能够在不同的发音者中合成对齐语音。实验结果显示,该方法在USC-TIMIT MRI语料库上实现了15.18%的字错误率,显著优于现有最先进的技术。
🏷️
标签
➡️