机器之心 ·

全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

AIxiv专栏促进了学术交流，报道了2000多篇内容。新模型RoboVLMs在视觉语言动作模型（VLA）中表现优异，能够在多种任务中稳定发挥。通过合理设计和选择基座模型，RoboVLMs在仿真和真实环境中均取得了出色成绩，展现了未来机器人的潜力。

🎯

🔎

RoboVLMs的成功在于其设计的合理性，尤其是在动作空间和历史信息的处理上。使用连续动作空间和多步历史信息可以显著提升模型的稳定性和准确性。这一发现为未来VLA模型的设计提供了重要的参考，强调了架构选择对模型性能的影响。

选择合适的基座模型是RoboVLMs成功的关键。实验表明，KosMos和Paligemma在任务完成精度和泛化能力上表现优异，得益于其扎实的视觉语言预训练。这一发现提示研究者在构建VLA模型时，基座模型的选择应优先考虑其预训练的深度和质量。

在预训练阶段引入跨本体数据可以显著提升模型的鲁棒性和表现，尤其是在少样本场景下。实验结果显示，合理的训练策略能够有效提升模型在复杂任务中的表现。这为未来VLA模型的训练策略提供了重要的指导，强调了数据使用时机的科学性。

❓

RoboVLMs在视觉语言动作模型中表现优异，能够在多种任务中稳定发挥，尤其在仿真和真实环境中均取得了出色成绩。

选择合适的基座模型是VLA模型成功的关键，经过深度预训练的模型能提供强大的先验知识和理解能力。

在预训练阶段引入跨本体数据可以显著提升模型的鲁棒性和在少样本场景下的表现。

RoboVLMs在真实环境中面对复杂挑战时，表现优于其他模型，能够精准识别并完成分类操作。

设计过程中考虑了动作空间、历史信息和历史信息组织模块等关键因素，以提升模型性能和泛化能力。

未来可以探索更细化的设计优化、挑战复杂任务以及提升多模态协作能力。

🏷️