机器之心 ·

开源的风吹到视频生成：阿里开源登顶VBench的万相大模型，一手实测来了！

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

阿里开源了万相视频生成大模型，支持复杂动作和长文本指令，表现优异。该模型有14B和1.3B两种规格，适配不同显卡，生成质量高，推动视频生成领域的技术发展。

🎯

🔎

阿里开源的万相视频生成大模型在复杂动作和长文本指令处理上表现优异，标志着开源技术的进步。然而，尽管开源带来了更广泛的应用可能性，模型的性能仍然依赖于硬件条件，开发者需关注显卡的兼容性与性能要求。

万相模型的多功能性使其在广告、短视频制作等领域具有广阔的应用前景。尤其是其支持中英文长文本指令的能力，能够满足不同用户的需求，推动内容创作的多样化。开发者应关注如何将这一技术应用于实际项目中。

万相在物理建模方面的显著进步，使得生成的视频更具真实感，能够模拟复杂的物理现象。这一特性不仅提升了视频的视觉效果，也为教育、培训等领域提供了新的可能性，值得相关行业关注与探索。

❓

万相模型支持复杂动作生成和长文本指令，能够精准还原人物动作和真实物理场景。

万相模型有14B和1.3B两种规格，1.3B版本适合消费级显卡，显存需求为8.2GB。

万相模型在VBench评测中以86.22%的总分登顶，成为视频生成的新标杆。

万相模型能够稳定生成复杂运动，如旋转、跳跃等，并符合物理规律。

万相模型支持中英文长文本指令，能够准确理解并执行指令。

阿里实现全模态开源，推动视频生成技术的发展，降低了技术门槛，支持开发者使用。

🏷️