Tora是一种以轨迹为导向的扩散变换器(DiT)架构,可以生成具有不同分辨率和宽高比的高质量视频。它通过整合文本、视觉和轨迹条件来精确控制视频内容。Tora在平滑度、轨迹对齐和保真度方面优于其他方法。它使用轨迹提取器、时空DiT和运动引导融合器来生成视频。Tora展示了出色的运动保真度,能够准确模拟物理运动。它实现了高精度的轨迹对齐,并在视觉质量和保真度方面优于其他方法。
介绍了名为Latte的新型Transformer模型,用于视频生成。通过实验确定了最佳实践,并在四个视频生成数据集中取得了最先进的性能。将Latte扩展到文本-视频生成任务,并取得了可媲美的结果。为将Transformer融入视频生成模型提供了有价值的见解。
完成下面两步后,将自动完成登录并继续当前操作。