Ψ0——人形全身VLA：先用800h人类自视角视频数据预训练VLM，再用30h的真实机器人交互数据训练MM-DiT，最后用AMO做下肢RL跟踪

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

本文介绍了Ψ0模型，该模型结合大规模人类视频数据与真实机器人数据，训练出一种用于类人机器人灵巧运动的视觉-语言动作模型，能够有效提取运动先验，实现复杂的全身控制。

🎯

关键要点

Ψ0模型结合大规模人类视频数据与真实机器人数据，训练出视觉-语言动作模型。
模型在大规模第一视角人类视频上进行自回归预训练，以获得良好的视觉-动作表征。
在高质量人形机器人数据上后训练动作专家，实现精确的机器人关节控制。
Ψ0模型采用多阶段训练范式，每个阶段设定不同的学习目标。
模型能够有效提取运动先验，实现复杂的全身控制。
当前类人机器人在灵巧行走-操作方面仍面临挑战，Ψ0模型旨在解决这一问题。
Ψ0模型的架构包括视觉-语言骨干网络和多模态扩散Transformer动作专家。
模型通过RL控制策略实现下肢和躯干关节的控制。
Ψ0模型的设计能够高效融合动作和视觉-语言特征，提升全身控制能力。

🏷️

继续阅读

不能承受的生命之轻
《不能承受的生命之轻》探讨了轻与重的哲学主题，通过托马斯与特蕾莎的关系，揭示个体性、自由与偶然的复杂性。尽管未完全理解，作者欣赏昆德拉的文字美，认为其引发...
马可·奥勒留和他的《沉思录》
《沉思录》是罗马皇帝马可·奥勒留的自省之作，体现了他的谦逊与深思。他赞美有文化的人，强调关注可控事物并接受不可控事物。现代人因社交媒体倾向批评，忽视感恩与学习。
游记｜周末去了一趟苏州，找到了春天最舒服的打开方式
作者计划在太湖边露营，发现附近有永慧禅寺，决定前往。沿途风景优美，此次补上之前自驾环太湖时未经过苏州的遗憾。
QCon London 2026: Introducing Tansu.io — Rethinking Kafka for Lean Operations
Peter Morgan introduced Tansu at QCon London, an open-source, Kafka-compatibl...
自动监控地震数据下载脚本
这是一个基于Python和ObsPy的地震自动监测工具，定期获取USGS地震信息，自动下载波形数据并进行预处理和可视化，支持定时任务设置，方便用户获取最新数据。
4000万Token免费送，鹅厂这只“大闸蟹”能吃吗？可以用，不建议
熊猫体验了鹅厂的QClaw，操作简单且支持多渠道，但微信适配不佳。尽管具备安全防护和本地化优势，内置模型表现欠佳，建议使用第三方模型。整体体验尚可，但需改进。

Ψ0——人形全身VLA：先用800h人类自视角视频数据预训练VLM，再用30h的真实机器人交互数据训练MM-DiT，最后用AMO做下肢RL跟踪

内容提要

关键要点

标签

继续阅读