500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

华人团队发布的Pusa V1.0模型,利用3860段视频和500美元成本,实现了图像到视频生成的最新技术,采用向量时间步适应机制,支持多种视频生成任务,并已开源。

🎯

关键要点

  • 华人团队发布Pusa V1.0模型,利用3860段视频和500美元成本实现图像到视频生成的最新技术。

  • Pusa V1.0在基础大模型Wan2.1-T2V-14B的基础上引入向量时间步适应机制,支持多种视频生成任务。

  • Pusa V1.0的微调过程采用VTA机制,实现最小、非破坏性的优化,超越了Wan-I2V,达到了SOTA。

  • 模型支持零样本任务能力,包括图像到视频、开始-结束帧、视频扩展等多种任务。

  • VTA机制通过为每一帧引入独立时间编码,使得视频生成更加自然和连贯。

  • Pusa V1.0在训练中使用LORA和DeepSpeed Zero2,显著减少了参数更新数量,保留了基础模型的先验知识。

  • 模型已开源,旨在为视频生成建立可扩展且多功能的范例。

延伸问答

Pusa V1.0模型的主要创新是什么?

Pusa V1.0模型引入了向量时间步适应机制,支持多种视频生成任务,并在图像到视频生成上实现了SOTA。

Pusa V1.0模型的训练成本是多少?

Pusa V1.0模型的训练成本约为500美元。

Pusa V1.0支持哪些视频生成任务?

Pusa V1.0支持图像到视频、开始-结束帧、视频扩展、文字转视频等多种任务。

VTA机制如何改善视频生成的效果?

VTA机制通过为每一帧引入独立时间编码,使得视频生成更加自然和连贯,允许不同帧以不同速度演化。

Pusa V1.0与Wan-I2V的比较如何?

Pusa V1.0在图像到视频生成上超越了Wan-I2V,且所需的参数更新数量比Wan-I2V少10倍以上。

Pusa V1.0模型的开源情况如何?

Pusa V1.0模型已开源,旨在为视频生成建立可扩展且多功能的范例。

➡️

继续阅读