本文探讨了视觉语言动作(VLA)与强化学习(RL)结合的必要性,提出了GR-RL框架,以提高机器人在长时域操作中的灵巧性和精确度。GR-RL通过离线RL过滤次优数据,增强动作并进行在线RL调整,解决了人类示范中的噪声和不匹配问题。尽管GR-RL在高精度任务中表现出色,但仍面临行为漂移等局限性。
完成下面两步后,将自动完成登录并继续当前操作。