一文速览CogACT及其源码剖析：把OpenVLA的离散化动作预测换成DiT，逼近π0(含DiT的实现)

近年来，配备视觉能力的机器人控制模型引起了广泛的兴趣，比如7-RT-1,8-RT-2-将7D动作分解为离散的token，并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法，对动作进行tokenizing，并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中，大规模视觉-语言-动作（VLA）模型的发展[

CogACT是一种结合视觉、语言和动作的模型，通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作，实现高精度和多模态的动作生成，显著提高任务成功率。

CogACT openvla 任务成功率扩散模型机器人源码视觉-语言-动作