本文介绍了一种新的离线强化学习方法A2PO,通过利用脱机数据集来制定智能体策略,解决分布不匹配问题。该方法使用条件变分自编码器解开行为策略的动作分布,并将训练数据的优势值建模为条件变量,以优化高优势值的策略。实验结果表明,A2PO在D4RL基准测试中优于现有的对手。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: