小红花·文摘

本研究提出了一种新的文本转语音生成方法——潜在语音（LatentSpeech），通过潜在扩散模型降低计算负担，简化编码器和声码器处理，提升生成语音质量。实验结果显示，潜在语音在词错误率和梅尔谱失真方面分别提高了25%和24%。