LADEV:面向机器人操作的视觉语言行动模型的语言驱动测试与评估平台
原文中文,约600字,阅读约需2分钟。发表于: 。本研究解决了视觉语言行动(VLA)模型在机器人操作任务中的有效性和鲁棒性评估问题。通过推出LADEV,一个语言驱动的平台,该平台能够自动生成模拟环境并实现多样化的自然语言任务指令,显著提高了测试效率和模型评估的可靠性。实验结果表明,LADEV不仅提升了评估效率,还为VLA模型提供了坚实的评估基线,促进了更智能的机器人系统的发展。
OpenVLA是一个拥有7B参数的开源视觉-语言-动作模型,利用970k真实机器人演示数据集训练。基于Llama 2和DINOv2特征,OpenVLA在29个任务中表现优异,成功率比RT-2-X等闭源模型高16.5%。在新环境中微调效果显著,优于传统模仿学习方法20.4%。它可在消费级GPU上微调,并支持量化服务。模型检查点和代码库已发布,推动VLA的规模化训练。