CogACT是一种结合视觉、语言和动作的模型,通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作,实现高精度和多模态的动作生成,显著提高任务成功率。
本研究解决了现有视觉-语言-行动模型在机器人操作任务执行和在新环境中的通用性不足的问题。通过提出一种组件化的 VLA 架构,并设计专门的行动模块,本文显著提升了任务性能,实验结果显示在多种环境下,相比已有模型,成功率提高超过35%至55%。
完成下面两步后,将自动完成登录并继续当前操作。