通过 Transformer 实现的简单文本到视频模型
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一个基于 Transformer 的通用简单文本到视频模型,将文本和视频编码到相同的隐藏空间,使用 Transformer 捕捉时间一致性并生成文本或图像,通过 U-Net 从噪音版本重构图像,增加图像中的噪音级别,使用 U-Net 的 $down$ 模块编码噪音图像,在 Transformer 中输入以预测下一个清晰图像,同时限制任何生成图像对之间的运动,使用 GPT2 在...
该文介绍了一种基于Transformer的文本到视频模型,使用U-Net从噪音版本重构图像,并使用GPT2在UCF101数据集上进行测试,展示其能够生成有希望的视频。