离线强化学习的优势感知策略优化

离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互，以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法，用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE)...

本文介绍了一种新的离线强化学习方法A2PO，通过利用脱机数据集来制定智能体策略，解决分布不匹配问题。该方法使用条件变分自编码器解开行为策略的动作分布，并将训练数据的优势值建模为条件变量，以优化高优势值的策略。实验结果表明，A2PO在D4RL基准测试中优于现有的对手。