小红花·文摘

本文提出了一种自适应行动量化方案，利用 VQ-VAE 学习状态条件的行动量化，解决了行动空间的指数爆炸问题。在复杂机器人操作任务中，通过离线强化学习算法实现了性能提升，特别是在 Robomimic 环境中，离散化方法相比于连续方法提高了 2-3 倍的效率。