小红花·文摘

CogACT是一种结合视觉、语言和动作的模型，通过VLM和DiT模块提升机器人在复杂任务中的表现。它提取认知信息并利用扩散模型预测动作，实现高精度和多模态的动作生成，显著提高任务成功率。

结构之法算法之道 ·

本研究解决了现有视觉-语言-行动模型在机器人操作任务执行和在新环境中的通用性不足的问题。通过提出一种组件化的 VLA 架构，并设计专门的行动模块，本文显著提升了任务性能，实验结果显示在多种环境下，相比已有模型，成功率提高超过35%至55%。

BriefGPT - AI 论文速递 ·