💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
Tora是一种以轨迹为导向的扩散变换器(DiT)架构,可以生成具有不同分辨率和宽高比的高质量视频。它通过整合文本、视觉和轨迹条件来精确控制视频内容。Tora在平滑度、轨迹对齐和保真度方面优于其他方法。它使用轨迹提取器、时空DiT和运动引导融合器来生成视频。Tora展示了出色的运动保真度,能够准确模拟物理运动。它实现了高精度的轨迹对齐,并在视觉质量和保真度方面优于其他方法。
🎯
关键要点
- Tora是一种轨迹导向的扩散变换器(DiT)架构,能够生成高质量视频。
- Tora整合文本、视觉和轨迹条件,实现精确控制视频内容。
- Tora在平滑度、轨迹对齐和保真度方面优于其他方法。
- Tora使用轨迹提取器、时空DiT和运动引导融合器生成视频。
- Tora展示出色的运动保真度,能够准确模拟物理运动。
- Tora实现高精度的轨迹对齐,视觉质量和保真度优于其他方法。
- Tora采用OpenSora作为基础模型,包含轨迹提取器、时空DiT和运动引导融合器。
- 轨迹提取器将轨迹转换为运动patch,与视频patch位于相同潜在空间。
- 运动引导融合器将运动patch注入每个ST-DiT块,结合视频生成与轨迹。
- 实验结果显示,Tora在不同帧数和分辨率下表现出高稳健性和运动控制能力。
- Tora生成的视频在视觉质量和运动流畅度上优于传统U-Net方法。
➡️