视觉回声:简单统一变压器用于音视频生成
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用简单轻量级的生成型 Transformer 模型,本论文在图像到音频生成任务上取得了更好的性能,同时也可用于音频到图像生成和协同生成。
本文介绍了一种音频视觉语音增强系统,利用基于分数的生成模型和视觉信息。实验评估表明该系统在语音质量和减少生成物品方面有改进效果,并降低了发音困惑。
通过使用简单轻量级的生成型 Transformer 模型,本论文在图像到音频生成任务上取得了更好的性能,同时也可用于音频到图像生成和协同生成。
本文介绍了一种音频视觉语音增强系统,利用基于分数的生成模型和视觉信息。实验评估表明该系统在语音质量和减少生成物品方面有改进效果,并降低了发音困惑。