机器之心 ·

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

Yann LeCun指出当前的LLM无法理解世界，强调世界模型的重要性。他的团队推出了DINO-WM，该模型基于预训练视觉特征实现零样本规划，能够有效建模环境动态，提升视觉推理能力。在复杂环境中，该模型展现出更强的场景理解能力。

🎯

关键要点

Yann LeCun认为当前的LLM无法理解世界，强调世界模型的重要性。
LeCun团队推出DINO-WM模型，基于预训练视觉特征实现零样本规划。
DINO-WM能够有效建模环境动态，提升视觉推理能力。
该模型使用来自DINOv2的预训练图块特征，提供空间和目标中心的表征先验。
DINO-WM在复杂环境中展现出更强的场景理解能力。
研究目标是从离线数据集中学习与任务无关的世界模型。
DINO-WM通过模型预测控制和随机优化算法实现视觉规划。
实验表明DINO-WM在简单环境中表现良好，但在复杂环境中表现优越。
DINO-WM对新环境的泛化能力强，能够有效学习墙壁和门的一般概念。
与生成式视频模型相比，DINO-WM在物理合理性和目标状态达成上表现更佳。

🏷️

继续阅读

π0.7——4层prompt下的技能组合泛化能力：先高层策略基于指令历史和当前画面输出子任务指令，后世界模型基于子任务指令生成子目标图像
π0.7是一种新型通用机器人模型，具备强大的组合泛化能力。通过多模态数据和详细上下文标注，该模型能够有效执行多样化任务，并在新任务中展现灵巧技能。它结合了...
教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决
ClawGUI是一个开源框架，旨在解决GUI智能体的训练、评测和部署问题。它通过在线强化学习与真实设备交互，提升模型性能。ClawGUI-2B在Mobil...
云开发平台Vercel遭黑客攻击
Vercel开发平台遭黑客攻击，攻击源自一个被入侵的第三方AI工具。黑客试图出售窃取的员工姓名和邮箱数据。Vercel确认事件影响了部分客户，并建议管理员...
拒绝的尖峰 — 坚实的融合
文章讨论了HTMX 4的迁移评估过程。团队发现许多预期功能缺失，尽管技术上可行，但由于缺乏关键流媒体功能，决定暂时不迁移。此次评估提供了重要的决策信息，避...
2026年4月19日Python中心周刊摘要
本周讨论了NATS JetStream作为Kafka、Redis和RabbitMQ的替代方案，简化架构。此外，新课程教授使用Python和Pyimvers...
行业首发！线控制动量产上车，奇瑞星途 EX7 上市售价 19.99 万元起
奇瑞星途品牌新车型星途EX7正式上市，售价19.99万至26.39万元，提供纯电与增程两种动力。该车强调安全、性能与品质，采用“星际美学”设计，车身宽敞，...

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

内容提要

关键要点

标签

继续阅读