小红花·文摘

N'UWA是一种多模态预训练模型，用于生成和调节视觉数据，表现出色。它在文本到图像生成、文本到视频生成和视频预测等任务上取得了最先进的结果。此外，N'UWA还展示了在文本引导的图像和视频操作任务上的惊人零成本能力。