Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

字节推出Self-Forcing++方法,成功实现最长4分15秒的高质量AI视频生成,解决了传统模型生成短视频的问题。该方法通过优化训练过程,显著提升视频的稳定性和一致性,标志着AI视频生成技术的进步。

🎯

关键要点

  • 字节推出Self-Forcing++方法,实现最长4分15秒的高质量AI视频生成。
  • 该方法优化训练过程,显著提升视频的稳定性和一致性。
  • 传统模型生成视频长度有限,通常只有5到10秒,后期画质容易崩坏。
  • Self-Forcing++通过教师知识和自生成视频片段指导自回归生成,解决了长视频生成的问题。
  • 优化训练过程包括反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存训练。
  • 引入组相对策略优化(GRPO)改善视频平滑性,减少画面突变异常。
  • 使用Gemini-2.5-Pro作为评估工具,提供更精准的视觉稳定性评分。
  • 在短时长视频质量上,Self-Forcing++表现优于多种基准模型。
  • 在长时长生成中,Self-Forcing++在视觉稳定性和动态程度上均有显著提升。
  • 最终实验验证,Self-Forcing++在保真度和一致性上优于基线方法。
➡️

继续阅读