StrokeNUWA: 笔画分词用于矢量图形合成

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

N'UWA是一种多模态预训练模型,用于生成和调节视觉数据,表现出色。它在文本到图像生成、文本到视频生成和视频预测等任务上取得了最先进的结果。此外,N'UWA还展示了在文本引导的图像和视频操作任务上的惊人零成本能力。

🎯

关键要点

  • N'UWA是一种统一的多模态预训练模型。
  • N'UWA可以生成新的或调节现有的视觉数据,包括图像和视频。
  • 在8个下游任务上,N'UWA的表现超过了强基准。
  • N'UWA在文本到图像生成、文本到视频生成和视频预测等任务上实现了最先进的结果。
  • N'UWA在文本引导的图像和视频操作任务上展示了惊人的零成本能力。
➡️

继续阅读