Tora: 基于轨迹导向的视频生成扩散变压器
原文中文,约400字,阅读约需1分钟。发表于: 。本文介绍了 Tora,它是第一个将文本、视觉和轨迹条件同时融合到视频生成中的以轨迹为导向的 Diffusion Transformer 框架,通过将任意轨迹编码为具有层次结构的时空运动路径,然后将这些路径与 DiT 块集成以生成遵循轨迹的一致视频,实现了对视频内容的动态特性进行精确控制,同时在高运动保真度和模拟物理世界运动方面表现出卓越性能。
介绍了名为Latte的新型Transformer模型,用于视频生成。通过实验确定了最佳实践,并在四个视频生成数据集中取得了最先进的性能。将Latte扩展到文本-视频生成任务,并取得了可媲美的结果。为将Transformer融入视频生成模型提供了有价值的见解。