介绍了名为Latte的新型Transformer模型,用于视频生成。通过实验确定了最佳实践,并在四个视频生成数据集中取得了最先进的性能。将Latte扩展到文本-视频生成任务,并取得了可媲美的结果。为将Transformer融入视频生成模型提供了有价值的见解。
完成下面两步后,将自动完成登录并继续当前操作。