一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测

一个多月前，有朋友曾说，一个月内，π0 会开源来着，当时虽然觉得不太可能，但还是抱着期待可还是没开..没开源必然是有点遗憾，故这两天我一直在考虑、对比，看目前哪个vla最逼近π0，然后借鉴π0的思路，去改造该vla前两天又重点看了下openvla，和cogact，然后对此文增加了不少解读内容，且发现总之，各种vlm + 各种动作预测头/方法，会出来很多vla。

文章讨论了对π0开源项目的期待与遗憾，分析了OpenVLA和CogACT的源码，重点介绍了动作预测模块的实现，包括ActionTokenizer类的功能和Diffusion Transformer的架构。通过对比不同模型，探讨如何改进VLA以接近π0的思路。

CogACT Diffusion Transformer OpenVLA llama π0 动作预测源码