通过 Transformer 实现的简单文本到视频模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种基于Transformer的文本到视频模型,使用U-Net从噪音版本重构图像,并使用GPT2在UCF101数据集上进行测试,展示其能够生成有希望的视频。
🎯
关键要点
- 提出了一种基于Transformer的通用简单文本到视频模型。
- 将文本和视频编码到相同的隐藏空间。
- 使用Transformer捕捉时间一致性并生成文本或图像。
- 通过U-Net从噪音版本重构图像,增加图像中的噪音级别。
- 使用U-Net的$down$模块编码噪音图像。
- 在Transformer中输入噪音图像以预测下一个清晰图像。
- 限制生成图像对之间的运动。
- 使用GPT2在UCF101数据集上进行测试,展示生成有希望的视频。
🏷️
标签
➡️