LADEV:面向机器人操作的视觉语言行动模型的语言驱动测试与评估平台
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型,利用970k真实机器人演示数据集训练。基于Llama 2和DINOv2特征,OpenVLA在29个任务中表现优异,成功率比RT-2-X等闭源模型高16.5%。在新环境中微调效果显著,优于传统模仿学习方法20.4%。它可在消费级GPU上微调,并支持量化服务。模型检查点和代码库已发布,推动VLA的规模化训练。
🎯
关键要点
- OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型,训练于970k真实机器人演示数据集。
- OpenVLA基于Llama 2和DINOv2特征,表现优于RT-2-X等闭源模型16.5%。
- 在新环境中微调效果显著,优于传统模仿学习方法20.4%。
- OpenVLA可在消费级GPU上微调,并支持量化服务。
- 模型检查点和代码库已发布,推动VLA的规模化训练。
➡️