一文速览CogACT及其源码剖析:把OpenVLA的离散化动作预测换成DiT,逼近π0(含DiT的实现)

近年来,配备视觉能力的机器人控制模型引起了广泛的兴趣,比如7-RT-1,8-RT-2-将7D动作分解为离散的token,并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法,对动作进行tokenizing,并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中,大规模视觉-语言-动作(VLA)模型的发展[

CogACT是一种结合视觉、语言和动作的模型,通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作,实现高精度和多模态的动作生成,显著提高任务成功率。

原文中文,约18700字,阅读约需45分钟。发表于:
阅读原文