机器之心 ·

VBench-2.0：面向视频生成新世代的评测框架

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

近年来，AI视频生成技术迅速发展，VBench-2.0评测体系强调视频的内在真实性，关注物理规律和常识推理等深层次能力，补充VBench-1.0，推动视频生成模型的创作与应用潜力提升。

🎯

关键要点

近年来，AI视频生成技术迅速发展，尤其是自2024年初Sora问世后，吸引了众多高校和企业的关注。
闭源模型在视觉效果上表现出色，开源模型如HunyuanVideo和Wanx也在VBench榜单上取得了好成绩。
视频生成的下一步应关注内在真实性，而不仅仅是表面逼真度。
VBench-1.0主要关注视频的视觉观感，而VBench-2.0则强调内在真实性，包括对物理规律和常识推理的理解。
VBench-2.0引入了多个关键评测维度，如人体动作、可控性、创造性、物理规律和常识推理。
VBench-2.0与人类评测结果高度一致，验证了其评测方法的可靠性。
现有模型在VBench-2.0的评测中表现各异，开源和闭源模型在复杂场景中表现相当。
VBench-2.0已全面开源，鼓励社区参与，共同推动视频生成技术的发展。
基础动作和属性变化仍是当前模型的短板，未来需要改进。
故事级长文本引导生成仍面临挑战，现有模型的时长普遍较短。
文本优化器有助于提高视频质量，但可能抑制创造力，需平衡两者。
内在真实性是评估视频生成模型的重要标准，不能仅凭表面效果做出判断。
邀请研究者和开发者参与VBench评测，共同推动视频生成技术的进步。

🔎

延伸解读

内在真实性的重要性

VBench-2.0强调内在真实性，意味着视频生成不仅要看起来真实，还需遵循物理规律和常识推理。这一转变将推动AI在电影制作和复杂场景模拟等领域的应用，提升视频生成的实际价值。

开源与闭源模型的比较

在VBench-2.0的评测中，开源模型与闭源模型在复杂场景中的表现相当，显示出社区共建的潜力。这一发现鼓励更多开发者参与开源项目，推动技术的进一步发展。

文本优化器的双刃剑

文本优化器可以提高视频生成的质量与文本一致性，但也可能抑制创造力。研究者需在提升视频质量与保持多样性之间找到平衡，以满足不同的生成需求。

未来视频生成的挑战

当前模型在生成长剧情视频时仍面临挑战，主要是时长限制和叙事连贯性问题。未来的研究需关注如何在更长时间内保持故事的连贯性，以满足电影和动画等领域的需求。

❓

延伸问答

VBench-2.0的主要目标是什么？

VBench-2.0的主要目标是推动视频生成技术从表面逼真度向内在真实性的转变，强调对物理规律和常识推理的理解。

VBench-2.0与VBench-1.0有什么不同？

VBench-1.0主要关注视频的视觉观感，而VBench-2.0则强调内在真实性，包括对物理规律和常识推理的理解。

VBench-2.0引入了哪些评测维度？

VBench-2.0引入了人体动作、可控性、创造性、物理规律和常识推理等多个关键评测维度。

VBench-2.0的评测结果与人类评测结果一致吗？

VBench-2.0的评测结果与人类评测结果高度一致，验证了其评测方法的可靠性。

现有视频生成模型在VBench-2.0的表现如何？

现有模型在VBench-2.0的评测中表现各异，开源和闭源模型在复杂场景中表现相当。

VBench-2.0如何促进视频生成技术的发展？

VBench-2.0通过全面开源和鼓励社区参与，推动视频生成技术的进步与创新。

🏷️