Tora: 基于轨迹导向的视频生成扩散变压器
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
介绍了名为Latte的新型Transformer模型,用于视频生成。通过实验确定了最佳实践,并在四个视频生成数据集中取得了最先进的性能。将Latte扩展到文本-视频生成任务,并取得了可媲美的结果。为将Transformer融入视频生成模型提供了有价值的见解。
🎯
关键要点
- 提出了一种名为Latte的新型潜在扩散Transformer,用于视频生成。
- 通过实验分析确定了Latte的最佳实践,包括视频裁剪嵌入、模型变种等。
- Latte在四个标准的视频生成数据集中取得了最先进的性能:FaceForensics、SkyTimelapse、UCF101和Taichi-HD。
- Latte扩展到了文本-视频生成任务,并与最近的T2V模型相比取得了可媲美的结果。
- Latte为将Transformer融入视频生成扩散模型的未来研究提供了有价值的见解。
🏷️
标签
➡️