HAMSTER:开放世界机器人操作的层次化行动模型

📝

内容提要

本研究解决了机器人操作中开放世界泛化能力不足的问题,提出了层次化的视觉-语言-行动(VLA)模型,以更有效地利用低成本的域外数据。通过将高层VLM细化以生成粗略的2D路径,作为低层3D控制策略的指导,显著提高了机器人在真实环境中的任务成功率。实验结果显示,成功率平均提高20%,在开放VLA上实现了50%的相对增益。

🏷️

标签

➡️

继续阅读