机器之心 ·

机器人泛化能力大幅提升：HAMSTER层次化方法和VLA尺度轨迹预测，显著提升开放世界任务成功率

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

HAMSTER（层次化动作模型）通过高层次视觉-语言模型生成二维路径，减少对昂贵机器人数据的依赖，提高任务成功率和跨平台泛化能力。该方法将任务规划与执行解耦，使机器人在复杂环境中更具适应性和效率。实验结果表明，HAMSTER在多种操作任务中表现优异，未来可优化轨迹表示和动态路径更新。

🎯

🔎

HAMSTER的层次化架构通过将高层任务规划与低层执行解耦，显著降低了对昂贵本域数据的依赖。这种方法不仅提高了任务成功率，还增强了机器人在不同硬件平台上的适应性，使其在复杂环境中表现更为出色。

尽管HAMSTER在泛化能力和执行效率上表现优异，但仍需在轨迹表示和动态路径更新方面进行优化。未来的研究可以探索更丰富的轨迹信息表达和实时环境适应能力，以进一步提升系统的鲁棒性和灵活性。

HAMSTER通过在大量域外数据上进行微调，显著降低了对真实机器人演示数据的需求。这种数据效率的提升，不仅降低了成本，还使得机器人能够在新环境中快速适应，展现出更强的泛化能力。

❓

HAMSTER通过高层次视觉-语言模型生成二维路径，解耦任务规划与执行，显著提升了任务成功率，实验表明成功率提升约20%-30%。

HAMSTER的层次化架构使高层负责语义推理与路径生成，低层专注于动作控制，减少对昂贵数据的依赖，并增强跨平台适用性。

HAMSTER通过高层模型利用域外数据微调生成二维路径，低层控制模块只需少量本域数据进行训练，从而减少对昂贵数据的需求。

HAMSTER在复杂场景中表现优异，能够在视觉背景、光照条件及语言指令变化下，保持较强的泛化能力。

未来HAMSTER可优化轨迹表示与高低层交互，增强动态路径更新能力，并利用大规模人类视频数据进行训练。

HAMSTER的高层模型使用视觉-语言模型理解环境图像和语言指令，输出与硬件无关的二维路径。

🏷️