量子位 ·

Meta新视频生成框架拿捏倒立杂技，双人舞也能完美同步！运动一致性暴增近20%，可无缝集成DiT模型

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

Meta推出的VideoJAM框架显著提升了运动一致性近20%，能够生成复杂的舞蹈和杂技等动态场景，效果接近真实。该框架在训练和推理阶段优化了DiT模型，采用联合外观-运动表示和内部引导机制，确保生成视频的运动连贯性。

🎯

关键要点

Meta推出的VideoJAM框架提升运动一致性近20%。
VideoJAM能够生成复杂的舞蹈和杂技等动态场景，效果接近真实。
框架在训练阶段引入运动信息表示，优化了DiT模型。
VideoJAM在运动场景处理上视觉效果更好，符合物理规律。
运动质量在4B和30B规模下分别提升至93.7和92.4，超越其他对比模型。
训练中采用联合外观-运动表示，增强模型对运动的理解。
推理阶段使用内部引导机制，动态调整生成过程以增强运动一致性。
生成过程分为粗略阶段和细化阶段，分别关注大范围运动和细节优化。

❓

延伸问答

VideoJAM框架的主要功能是什么？

VideoJAM框架主要用于提升视频生成中的运动一致性，能够生成复杂的舞蹈和杂技场景，效果接近真实。

VideoJAM如何提升运动一致性？

VideoJAM通过引入联合外观-运动表示和内部引导机制，在训练和推理阶段优化了运动一致性，提升幅度近20%。

VideoJAM与其他视频生成模型相比有什么优势？

VideoJAM在运动质量上超越了Sora和Gen3等模型，在4B和30B规模下的运动质量分别提升至93.7和92.4。

VideoJAM的训练过程是怎样的？

在训练过程中，VideoJAM采用联合外观-运动表示，通过添加输入和输出投影层来融合静态外观信息和动态运动信息。

内部引导机制在VideoJAM中起什么作用？

内部引导机制用于动态调整生成过程，利用模型自身预测的运动信息来增强生成视频的运动一致性。

VideoJAM生成视频的过程分为哪几个阶段？

生成过程分为粗略阶段和细化阶段，粗略阶段关注大范围运动连贯性，细化阶段优化细节和物体交互的物理合理性。

🏷️

继续阅读

微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...
使用yii3实现一个微框架
本文介绍了如何使用 Yii3 框架构建微框架，包括创建项目目录、安装依赖、编写入口文件 index.php、配置事件监听器和路由。示例路由涵盖首页、健康检...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...