小红花·文摘

本文提出了一种基于转换器的音视频潜在扩散模型，能够在任务不可知的情况下进行音视频生成。通过优化跨模态生成框架和深度生成对抗训练，研究显示在语音质量和生成一致性方面有显著改进，尤其在低信噪比条件下表现优越。