CogACT:一个基础的视觉-语言-行动模型,以促进认知与机器人操作中的行动协同

📝

内容提要

本研究解决了现有视觉-语言-行动模型在机器人操作任务执行和在新环境中的通用性不足的问题。通过提出一种组件化的 VLA 架构,并设计专门的行动模块,本文显著提升了任务性能,实验结果显示在多种环境下,相比已有模型,成功率提高超过35%至55%。

🏷️

标签

➡️

继续阅读