量子位 ·

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

研究提出了Transition Model（TiM），旨在解决生成模型中的速度与质量矛盾。TiM通过建模任意时间点的状态转移，支持灵活步长采样，实现快速生成与高保真度的平衡。实验结果表明，TiM在多分辨率设置下优于现有模型，具备更好的可扩展性和稳定性。

🎯

🔎

Transition Model（TiM）通过直接建模任意两个时间点之间的状态转移，突破了传统扩散模型和Few-step模型的局限。这种方法不仅提高了生成速度，还在生成质量上实现了显著提升，尤其在图文生成任务中表现优越。

TiM的训练过程采用差分推导方程（DDE），有效降低了计算开销并提高了可扩展性。这一方法与现有的训练优化技术如FSDP和Flash Attention兼容，使得大规模模型训练变得更加高效和稳定。

TiM的设计理念在于实现生成速度与高保真度的平衡。通过灵活的单步尺寸和多段细化轨迹的生成路径，TiM能够在保持快速生成的同时，确保生成质量不受影响，这为生成模型的未来发展提供了新的思路。

❓

Transition Model（TiM）是一种新的生成模型范式，旨在解决生成速度与质量之间的矛盾，通过建模任意时间点的状态转移，实现快速生成与高保真度的平衡。

TiM通过直接建模任意两个时间点之间的完整状态转移，支持灵活步长采样，从而在生成过程中实现速度与质量的兼得。

TiM放弃了传统扩散模型的瞬时速度场学习和Few-step模型的端点映射，转而直接建模任意时间间隔的状态转移，克服了两者的局限性。

TiM在图文生成任务上表现优越，能够在多分辨率和多横纵比设置下超越现有模型，显示出更好的生成能力。

TiM通过引入差分推导方程（DDE）和损失加权策略来提升训练的稳定性和扩展性，确保在大规模模型训练中表现良好。

TiM的数学本质是建模任意时间区间的状态转移，包含瞬时速度和平均速度，提供了全局生成路径的解的流型。

🏷️