一文速览CogACT及其源码剖析:把OpenVLA的离散化动作预测换成DiT,逼近π0(含DiT的实现)

💡 原文中文,约18700字,阅读约需45分钟。
📝

内容提要

CogACT是一种结合视觉、语言和动作的模型,通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作,实现高精度和多模态的动作生成,显著提高任务成功率。

🎯

关键要点

  • CogACT是一种结合视觉、语言和动作的模型,旨在提升机器人在复杂任务中的表现。
  • CogACT通过VLM提取认知信息,并利用DiT模块进行高精度的动作生成。
  • CogACT的设计解耦了认知和动作能力,采用专用的动作模块而非直接重用VLM。
  • CogACT的视觉模块使用DINOv2和SigLIP,语言模块使用LLAMA-2,动作模块基于Diffusion Transformer(DiT)。
  • CogACT的训练目标是最小化动作模块预测的噪声与真实噪声之间的均方误差。
  • 在推理过程中,CogACT采用自适应集成策略来提高任务执行的成功率。
  • CogACT在OXE数据集上进行训练,包含超过100万个真实世界的机器人轨迹。
  • 实验结果表明,CogACT的成功率比OpenVLA高出59.1%。
➡️

继续阅读