本文提出了一种自适应行动量化方案,利用 VQ-VAE 学习状态条件的行动量化,解决了行动空间的指数爆炸问题。在复杂机器人操作任务中,通过离线强化学习算法实现了性能提升,特别是在 Robomimic 环境中,离散化方法相比于连续方法提高了 2-3 倍的效率。
完成下面两步后,将自动完成登录并继续当前操作。