结构之法算法之道 ·

一文速览CogACT及其源码剖析：把OpenVLA的离散化动作预测换成DiT，逼近π0(含DiT的实现)

💡 原文中文，约18700字，阅读约需45分钟。

📝

内容提要

CogACT是一种结合视觉、语言和动作的模型，通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作，实现高精度和多模态的动作生成，显著提高任务成功率。

🎯

🔎

CogACT通过将视觉-语言模型（VLM）与专用的动作模块（DiT）相结合，解决了传统模型在动作预测中的局限性。其设计理念在于解耦认知与动作能力，使得模型能够更精准地处理复杂的机器人任务。这种模块化的设计不仅提升了模型的灵活性，也为未来的机器人控制提供了新的思路。

CogACT的训练依赖于OXE数据集，该数据集包含超过100万个真实世界的机器人轨迹。这种大规模的数据支持使得模型能够在多样化的环境中进行有效学习，增强了其泛化能力。未来在训练过程中，数据的多样性和质量将直接影响模型的表现，值得关注。

CogACT采用自适应集成策略来优化动作预测的平滑性和连贯性。这种方法通过结合当前和历史的动作预测，避免了不合理的动作聚合，从而提高了任务执行的成功率。这一策略的有效性在实验中得到了验证，显示出在复杂任务中的应用潜力。

❓

CogACT模型结合视觉、语言和动作，旨在提升机器人在复杂任务中的表现。

CogACT通过VLM提取认知信息，并利用Diffusion Transformer(DiT)模块进行高精度的动作生成。

CogACT的成功率比OpenVLA高出59.1%，并且采用了专用的动作模块，提升了任务执行的成功率。

CogACT使用Open X-Embodiment（OXE）数据集进行训练，包含超过100万个真实世界的机器人轨迹。

CogACT的视觉模块使用DINOv2和SigLIP，语言模块使用LLAMA-2。

CogACT在推理过程中采用自适应集成策略来提高任务执行的成功率。

🏷️