量子位 ·

500美元刷新SOTA！训练成本砍到1/200，华人团队重构视频生成范式

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

华人团队发布的Pusa V1.0模型，利用3860段视频和500美元成本，实现了图像到视频生成的最新技术，采用向量时间步适应机制，支持多种视频生成任务，并已开源。

🎯

关键要点

华人团队发布Pusa V1.0模型，利用3860段视频和500美元成本实现图像到视频生成的最新技术。
Pusa V1.0在基础大模型Wan2.1-T2V-14B的基础上引入向量时间步适应机制，支持多种视频生成任务。
Pusa V1.0的微调过程采用VTA机制，实现最小、非破坏性的优化，超越了Wan-I2V，达到了SOTA。
模型支持零样本任务能力，包括图像到视频、开始-结束帧、视频扩展等多种任务。
VTA机制通过为每一帧引入独立时间编码，使得视频生成更加自然和连贯。
Pusa V1.0在训练中使用LORA和DeepSpeed Zero2，显著减少了参数更新数量，保留了基础模型的先验知识。
模型已开源，旨在为视频生成建立可扩展且多功能的范例。

❓

延伸问答

Pusa V1.0模型的主要创新是什么？

Pusa V1.0模型引入了向量时间步适应机制，支持多种视频生成任务，并在图像到视频生成上实现了SOTA。

Pusa V1.0模型的训练成本是多少？

Pusa V1.0模型的训练成本约为500美元。

Pusa V1.0支持哪些视频生成任务？

Pusa V1.0支持图像到视频、开始-结束帧、视频扩展、文字转视频等多种任务。

VTA机制如何改善视频生成的效果？

VTA机制通过为每一帧引入独立时间编码，使得视频生成更加自然和连贯，允许不同帧以不同速度演化。

Pusa V1.0与Wan-I2V的比较如何？

Pusa V1.0在图像到视频生成上超越了Wan-I2V，且所需的参数更新数量比Wan-I2V少10倍以上。

Pusa V1.0模型的开源情况如何？

Pusa V1.0模型已开源，旨在为视频生成建立可扩展且多功能的范例。

🏷️

继续阅读

【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust开发者推出了功能丰富的uiGrid数据表格组件，支持分组、过滤、排序等操作，具备树形视图和单元格编辑功能。该项目已开源，采用MIT许可证，支持自定...
早报｜苹果：下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录
iPhone 18 Pro预计将进行重大相机升级，配备可变光圈和新Siri模式，用户可通过AI服务提问。苹果毛利率创历史新高，但内存成本压力加大。三星Q1...
AI数智时代：股票智能预测系统功能实战
本案例介绍了基于华为云码道的股票智能预测系统，利用Transformer算法和Tushare获取A股历史数据，预测未来5日价格。用户可通过可视化图表查看预...
一年烧钱近7000亿美元！谷歌、Meta、亚马逊、微软：AI不只是风口
4月30日消息，当地时间周三盘后，Alphabet、Meta、亚马逊和微软集中披露财报，四大科技巨头交出了一份由AI和云计算推动的成绩单：Alphabet...
苹果意外泄露CLAUDE.md背后真相：AI开发流程正在被彻底重写的信号！
苹果意外泄露的CLAUDE.md文件揭示了AI开发流程的重大变化，强调从传统编码转向以自然语言编写提示词。这一事件暴露了企业在AI工具使用中的隐患和开发流...
营收破千亿、装机量超 25 亿，苹果交出史上最强三月季度答卷
【TechWeb】5月1日消息，据外媒报道，苹果发布 2026 财年第二季度（自然年第一季度）财报，并召开财报电话会议，宣布本季度创下史上最佳三月季度业绩...