离线强化学习的优势感知策略优化

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文介绍了一种新的离线强化学习方法A2PO,通过利用脱机数据集来制定智能体策略,解决分布不匹配问题。该方法使用条件变分自编码器解开行为策略的动作分布,并将训练数据的优势值建模为条件变量,以优化高优势值的策略。实验结果表明,A2PO在D4RL基准测试中优于现有的对手。

原文中文,约400字,阅读约需1分钟。
阅读原文