结构之法算法之道 ·

DreamZero——同时预测未来视觉状态与动作的世界动作模型：解决当下VLA如果人类不示教则只会理论但不会具体操作的弊病

📝

内容提要

最新的VLA模型在语义泛化方面表现出色，但在新环境中对未见过的物理动作的泛化却举步维艰。而本文要介绍的DreamZero，这是一种建立在预训练视频扩散骨干网络之上的世界动作模型(World Action Model，WAM) 与VLA 不同，WAM 通过预测未来的世界状态和动作来学习物理动力学，并将视频作为世界演化方式的稠密表示

➡️

继续阅读

2026年1月阅读书摘
我的时间和身体可以支离破碎，但自我必须完整。
Dota 闪电站出售
Dota闪电站是一个更新频繁的Dota八卦网站，创办人小猪的爆料可信度高。作者因其启发开博客，但因学业和工作不再关注。2024年，网站被出售，内容经过处理...
从特斯拉一日自驾，看纯电在日本的实际体验
在日本，特斯拉充电桩分布稀少，尤其在离开东京后更为明显。尽管在城市中表现良好，但充电和续航问题仍然存在，适合有稳定充电条件的用户。
想要真正的私密分享？NasChat把NAS变成专属TG，隐私+自由
NasChat是一款基于去中心化理念的聊天工具，采用Nostr协议，无需传统服务器，用户通过密钥登录。界面友好，支持文件上传，保护隐私。项目已开源，易于部...
让他们去拼那个书架
父亲带JR逛超市，JR选择了四个糯米团子。尽管父亲有不同看法，但他尊重JR的选择，让他通过选择学习。
5000小时训练，自动识别日文视频，并翻译中文字幕的开源工具
Faster Whisper TransWithAI ChickenRice 是一款基于音声优化模型的工具，能够将日文转换为中文字幕，支持多种音视频格式，...