OpenVLA:一个开放源代码的视觉语言行动模型

📝

内容提要

通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉 - 语言 - 动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA,这是一个 7B 参数的开源 VLA,它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA...

🏷️

标签

➡️

继续阅读