一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测

💡 原文中文,约14200字,阅读约需34分钟。
📝

内容提要

文章讨论了对π0开源项目的期待与遗憾,分析了OpenVLA和CogACT的源码,重点介绍了动作预测模块的实现,包括ActionTokenizer类的功能和Diffusion Transformer的架构。通过对比不同模型,探讨如何改进VLA以接近π0的思路。

🎯

关键要点

  • 文章讨论了对π0开源项目的期待与遗憾。
  • 分析了OpenVLA和CogACT的源码,重点介绍了动作预测模块的实现。
  • ActionTokenizer类将连续的机器人动作离散化为多个维度上的N个区间,并映射到最少使用的token上。
  • CogACT将OpenVLA的动作预测换成了Diffusion Transformer,逼近了π0的思路。
  • Diffusion Transformer的架构用于视频生成与机器人动作预测。
  • TimestepEmbedder类将标量时间步嵌入到向量表示中。
  • LabelEmbedder类处理条件嵌入并进行分类器自由引导的标签丢弃。
  • ActionEmbedder类将动作嵌入到向量表示中。
  • DiTBlock类和FinalLayer类用于构建Diffusion Transformer的结构。
  • DiT类是一个带有Transformer骨干的扩散模型,处理输入动作和时间步。
  • 文章探讨了如何改进VLA以接近π0的思路。
➡️

继续阅读