Tora是一种以轨迹为导向的扩散变换器(DiT)架构,可以生成具有不同分辨率和宽高比的高质量视频。它通过整合文本、视觉和轨迹条件来精确控制视频内容。Tora在平滑度、轨迹对齐和保真度方面优于其他方法。它使用轨迹提取器、时空DiT和运动引导融合器来生成视频。Tora展示了出色的运动保真度,能够准确模拟物理运动。它实现了高精度的轨迹对齐,并在视觉质量和保真度方面优于其他方法。
完成下面两步后,将自动完成登录并继续当前操作。