CoT-VLA: 视觉链思维推理的视觉-语言-动作模型
📝
内容提要
本研究针对现有视觉-语言-动作模型在复杂操作任务中缺乏推理能力的问题,提出了一种将显式视觉链思维推理(CoT)融入模型的新方法。通过预测未来图像帧作为视觉目标并生成短的动作序列,CoT-VLA实现了在现实操作任务中相较于最先进模型提高了17%的性能,展现出显著的影响力。
➡️
本研究针对现有视觉-语言-动作模型在复杂操作任务中缺乏推理能力的问题,提出了一种将显式视觉链思维推理(CoT)融入模型的新方法。通过预测未来图像帧作为视觉目标并生成短的动作序列,CoT-VLA实现了在现实操作任务中相较于最先进模型提高了17%的性能,展现出显著的影响力。