通过 Transformer 实现的简单文本到视频模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一种基于Transformer的文本到视频模型,使用U-Net从噪音版本重构图像,并使用GPT2在UCF101数据集上进行测试,展示其能够生成有希望的视频。

🎯

关键要点

  • 提出了一种基于Transformer的通用简单文本到视频模型。
  • 将文本和视频编码到相同的隐藏空间。
  • 使用Transformer捕捉时间一致性并生成文本或图像。
  • 通过U-Net从噪音版本重构图像,增加图像中的噪音级别。
  • 使用U-Net的$down$模块编码噪音图像。
  • 在Transformer中输入噪音图像以预测下一个清晰图像。
  • 限制生成图像对之间的运动。
  • 使用GPT2在UCF101数据集上进行测试,展示生成有希望的视频。
➡️

继续阅读