本文提出了一种基于转换器的音视频潜在扩散模型,能够在任务不可知的情况下进行音视频生成。通过优化跨模态生成框架和深度生成对抗训练,研究显示在语音质量和生成一致性方面有显著改进,尤其在低信噪比条件下表现优越。
完成下面两步后,将自动完成登录并继续当前操作。