GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

📝

内容提要

本文介绍GraspVLA系统,这是一个利用合成数据训练视觉-语言-动作(VLA)模型的新方法。研究者构建了十亿规模的SynGrasp-1B数据集,包含240类物体的抓取数据,并提出了渐进式动作生成(PAG)机制,将感知任务整合到动作生成的思维链中。该系统在互联网数据和合成数据上联合训练,实现了从仿真到现实的直接迁移,在透明物体抓取等任务上表现优异。实验表明,GraspVLA支持自然语言指令,...

🏷️

标签

➡️

继续阅读