Mobius: 高效空时并行训练范式的文本到视频生成任务

T2V 任务中序列模式的消耗延迟了时间和训练成本，为此我们提出了一种高效的空间 - 时间并行训练模型，名为 Mobius，其通过优化特征流和反向传播，节省了显存和训练时间，为 T2V 的微调任务提供了新的视角和改进。

AI生成摘要通过构建多任务模型和保留高保真度的视频本机时空分词器，研究证明了多模态潜在空间设计的可行性。提出了一种优于行业标准编解码器的视频本机时空分词器，实现了语言模型超越扩散模型的突破。可扩展视觉令牌表示法在生成、压缩和理解任务中表现出优势。研究为未来生成非文本数据、实现实时互动体验提供潜力。