小红花·文摘

介绍了名为Latte的新型Transformer模型，用于视频生成。通过实验确定了最佳实践，并在四个视频生成数据集中取得了最先进的性能。将Latte扩展到文本-视频生成任务，并取得了可媲美的结果。为将Transformer融入视频生成模型提供了有价值的见解。