InfoQ ·

Meta推出V-JEPA 2，一种用于物理推理的视频世界模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Meta推出V-JEPA 2，这是一种新型视频世界模型，旨在提升机器对物理环境的理解和预测能力。该模型经过两阶段训练，首先自监督预训练超过一百万小时的视频，然后在62小时的机器人数据上微调。V-JEPA 2在机器人操作任务中表现优异，成功率达65%至80%。

🎯

关键要点

Meta推出V-JEPA 2，是一种新型视频世界模型，旨在提升机器对物理环境的理解和预测能力。
V-JEPA 2经过两阶段训练，第一阶段使用超过一百万小时的视频进行自监督预训练，第二阶段在62小时的机器人数据上进行微调。
该模型在机器人操作任务中表现优异，成功率达65%至80%。
模型在嵌入空间进行预测，提高了计算效率，更接近人类推理方式。
V-JEPA 2在短期和长期操作任务中应用，能够根据目标图像模拟可能的动作并选择最佳方案。
Meta发布了三个新的基准测试，专注于视频中的物理推理，包括IntPhys 2、MVPBench和CausalVQA。
模型权重、代码和数据集可通过GitHub和Hugging Face获取，并已启动社区基准测试排行榜。

❓

延伸问答

V-JEPA 2模型的主要功能是什么？

V-JEPA 2模型旨在提升机器对物理环境的理解、预测和规划能力。

V-JEPA 2是如何训练的？

V-JEPA 2经过两阶段训练，首先自监督预训练超过一百万小时的视频，然后在62小时的机器人数据上微调。

V-JEPA 2在机器人操作任务中的表现如何？

V-JEPA 2在机器人操作任务中表现优异，成功率达65%至80%。

V-JEPA 2的预测机制有什么特点？

该模型在嵌入空间进行预测，提高了计算效率，更接近人类推理方式。

Meta发布了哪些新的基准测试？

Meta发布了IntPhys 2、MVPBench和CausalVQA三个新的基准测试，专注于视频中的物理推理。

V-JEPA 2的模型权重和代码在哪里可以获取？

模型权重、代码和数据集可通过GitHub和Hugging Face获取。

🏷️

继续阅读

再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI
小鹏在CVPR 2026展示了其物理AI技术，首次完整展示世界模型技术图谱。该模型具备主动思考、可控生成和长时序推演能力，结合第二代VLA，提升了自动驾驶...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]