离线强化学习的超立方体策略正则化框架

📝

内容提要

本研究针对现有离线强化学习方法在低质量静态数据集上表现不佳的问题,提出了一种超立方体策略正则化框架,该方法允许代理探索与静态数据集中相似状态对应的动作,从而增加算法的有效性。实验表明,结合此框架的TD3-BC-C和Diffusion-QL-C在大多数D4RL环境中比当前最优算法表现更好,展示了其显著的性能提升潜力。

🏷️

标签

➡️

继续阅读