机器之心 ·

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

Tora是一种以轨迹为导向的扩散变换器（DiT）架构，可以生成具有不同分辨率和宽高比的高质量视频。它通过整合文本、视觉和轨迹条件来精确控制视频内容。Tora在平滑度、轨迹对齐和保真度方面优于其他方法。它使用轨迹提取器、时空DiT和运动引导融合器来生成视频。Tora展示了出色的运动保真度，能够准确模拟物理运动。它实现了高精度的轨迹对齐，并在视觉质量和保真度方面优于其他方法。

🎯

关键要点

Tora是一种轨迹导向的扩散变换器（DiT）架构，能够生成高质量视频。
Tora整合文本、视觉和轨迹条件，实现精确控制视频内容。
Tora在平滑度、轨迹对齐和保真度方面优于其他方法。
Tora使用轨迹提取器、时空DiT和运动引导融合器生成视频。
Tora展示出色的运动保真度，能够准确模拟物理运动。
Tora实现高精度的轨迹对齐，视觉质量和保真度优于其他方法。
Tora采用OpenSora作为基础模型，包含轨迹提取器、时空DiT和运动引导融合器。
轨迹提取器将轨迹转换为运动patch，与视频patch位于相同潜在空间。
运动引导融合器将运动patch注入每个ST-DiT块，结合视频生成与轨迹。
实验结果显示，Tora在不同帧数和分辨率下表现出高稳健性和运动控制能力。
Tora生成的视频在视觉质量和运动流畅度上优于传统U-Net方法。

❓

延伸问答

Tora的主要功能是什么？

Tora是一种轨迹导向的扩散变换器，能够生成高质量的视频，精确控制视频内容。

Tora与传统U-Net方法相比有什么优势？

Tora在视频流畅度、轨迹对齐和运动保真度方面优于传统U-Net方法，能够更好地遵循物理规律。

Tora是如何生成视频的？

Tora通过轨迹提取器、时空DiT和运动引导融合器来生成视频，整合文本、视觉和轨迹条件。

Tora的轨迹提取器有什么作用？

轨迹提取器将轨迹转换为运动patch，使其与视频patch位于相同的潜在空间，从而实现更好的运动控制。

Tora在不同帧数下的表现如何？

Tora在不同帧数下表现出高稳健性，轨迹精度达到其他方法的3到5倍，运动控制能力卓越。

Tora的设计理念是什么？

Tora的设计理念是将文本、视觉和轨迹条件集成在一起，以实现对视频内容的精确控制。

🏷️