量子位 ·

LeCun世界模型出2代了！62小时搞定机器人训练，开启物理推理新时代

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

Meta发布的V-JEPA 2世界模型能够在62小时内训练机器人，使其理解物理世界并进行预测与规划。该模型通过自监督学习，利用大量视频数据提升机器人控制能力，标志着机器人技术的新纪元。

🎯

🔎

V-JEPA 2模型通过自监督学习，利用大量视频数据进行训练，避免了对人工标注的依赖。这种方法不仅提高了训练效率，还能在多样化的任务中展现出色的表现，显示了自监督学习在机器人技术中的潜力。

尽管V-JEPA 2在运动理解和人类动作预测方面表现优异，但与人类在物理理解基准测试中的表现相比，仍存在明显差距。这表明，未来的研究需要进一步提升模型在复杂物理场景中的推理能力。

Meta计划开发分层次和多模态的JEPA模型，以应对更复杂的任务。这些模型将能够在多个时间和空间尺度上进行学习和推理，可能会显著提升机器人在动态环境中的适应能力和智能水平。

❓

V-JEPA 2模型能够理解、预测和规划物理世界的变化。

V-JEPA 2采用自监督学习，利用超过100万小时的互联网视频和图像数据进行预训练。

V-JEPA 2在运动理解方面取得了77.3的top-1准确率，表现优异。

Meta发布了IntPhys 2、Minimal Video Pairs (MVPBench)和CausalVQA三个新的基准测试。

V-JEPA 2与人类在物理理解的准确率上存在明显差距，需进一步改进。

Meta计划发展分层次JEPA模型和多模态JEPA模型，以增强学习和推理能力。

🏷️