通过新方法和MultiNAM数据集推动NAM到语音转换

📝

内容提要

本研究针对当前NAM到语音转换技术在模拟准确性和泛化能力方面的不足,提出了一种新的利用音素级对齐的方法,结合文本到语音系统以提高语音的理解度。通过引入唇部模态和先进的扩散方法,研究中提出的MultiNAM数据集包含超过7.96小时的配对NAM、耳语、视频和文本数据,显著推动了该领域的发展。

🏷️

标签

➡️

继续阅读