量子位 ·

Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

字节推出Self-Forcing++方法，成功实现最长4分15秒的高质量AI视频生成，解决了传统模型生成短视频的问题。该方法通过优化训练过程，显著提升视频的稳定性和一致性，标志着AI视频生成技术的进步。

🎯

🔎

Self-Forcing++方法通过优化训练过程，解决了传统AI视频生成模型在长视频生成中的局限性。它不再依赖长视频数据集，而是通过自我纠错机制提升生成质量，标志着AI视频技术的一次重要突破。

长视频生成面临的主要挑战是画质下降和运动停滞。Self-Forcing++通过引入反向噪声初始化和组相对策略优化（GRPO），有效减少了这些问题，确保视频在长时间播放中的稳定性和一致性。

研究中发现，传统的VBench基准在评估视频质量时存在不足。字节团队采用Gemini-2.5-Pro作为新评估工具，能够更准确地衡量视频的视觉稳定性，提升了评估的可靠性。

❓

Self-Forcing++方法通过优化训练过程，成功实现最长4分15秒的高质量AI视频生成，显著提升视频的稳定性和一致性。

传统模型通常只能生成5到10秒的视频，且后期画质容易崩坏，无法满足长视频生成的需求。

该方法通过教师知识和自生成视频片段指导自回归生成，优化训练过程，抑制后期质量下降。

在短时长场景中，Self-Forcing++在视觉质量和语义一致性上表现优于多种基准模型。

研究人员使用Gemini-2.5-Pro作为评估工具，以更精准地衡量视觉稳定性。

在长视频生成中，Self-Forcing++在视觉稳定性和动态程度上均有显著提升，且未出现运动停滞或保真度退化的问题。

🏷️