阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

Tora是一种以轨迹为导向的扩散变换器(DiT)架构,可以生成具有不同分辨率和宽高比的高质量视频。它通过整合文本、视觉和轨迹条件来精确控制视频内容。Tora在平滑度、轨迹对齐和保真度方面优于其他方法。它使用轨迹提取器、时空DiT和运动引导融合器来生成视频。Tora展示了出色的运动保真度,能够准确模拟物理运动。它实现了高精度的轨迹对齐,并在视觉质量和保真度方面优于其他方法。

🎯

关键要点

  • Tora是一种轨迹导向的扩散变换器(DiT)架构,能够生成高质量视频。
  • Tora整合文本、视觉和轨迹条件,实现精确控制视频内容。
  • Tora在平滑度、轨迹对齐和保真度方面优于其他方法。
  • Tora使用轨迹提取器、时空DiT和运动引导融合器生成视频。
  • Tora展示出色的运动保真度,能够准确模拟物理运动。
  • Tora实现高精度的轨迹对齐,视觉质量和保真度优于其他方法。
  • Tora采用OpenSora作为基础模型,包含轨迹提取器、时空DiT和运动引导融合器。
  • 轨迹提取器将轨迹转换为运动patch,与视频patch位于相同潜在空间。
  • 运动引导融合器将运动patch注入每个ST-DiT块,结合视频生成与轨迹。
  • 实验结果显示,Tora在不同帧数和分辨率下表现出高稳健性和运动控制能力。
  • Tora生成的视频在视觉质量和运动流畅度上优于传统U-Net方法。
➡️

继续阅读