量子位 ·

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

国产视频模型Vidu推出“多主体一致性”功能，用户可上传1-3张图像生成无缝视频，解决视频一致性问题。其上下文记忆能力提升了语义理解，用户可轻松创作复杂视频故事，标志着视频生成技术的突破。

🎯

🔎

Vidu的多主体一致性功能解决了视频生成中的一致性控制问题，允许用户上传多张图像生成自然流畅的视频。这一能力在创作复杂故事时尤为重要，用户可以轻松实现多个角色之间的互动，提升了视频创作的灵活性和表现力。

Vidu采用统一化架构，类似于大语言模型的设计哲学。这种架构使得视频生成不再依赖繁琐的微调过程，提升了模型的泛化能力和上下文理解能力。这一创新可能会引领视频生成技术的新趋势，减少用户的操作复杂性。

Vidu的推出对现有视频模型如Runway和Luma构成了直接竞争。其独特的多主体一致性功能和上下文记忆能力，可能会迫使其他平台加速技术更新，以保持市场竞争力。这种竞争将推动整个行业的技术进步。

❓

Vidu的多主体一致性功能允许用户上传1-3张图像，实现多个主体的自然交互和一致性控制，解决了视频生成中的一致性问题。

Vidu通过上下文记忆能力提升了语义理解，能够理解多个输入图像的关联性，从而生成一致且连贯的视频内容。

Vidu在多主体一致性控制方面领先于Runway和Luma等视频模型，能够处理多个主体的自然交互，而这些模型通常仅支持单图输入。

用户可以上传1-3张参考图像，Vidu将根据这些图像生成无缝的视频内容，用户只需明确地点、人物和行为即可。

Vidu的技术架构与大语言模型相似，采用统一化架构，将所有问题统一为视觉输入和输出，从而提升视频生成能力。

Vidu的升级标志着视频生成技术的重大进展，使得用户能够轻松创作复杂视频故事，改变了视频创作的游戏规则。

🏷️