基于最大熵的策略改进演员 - 评论家算法及熵优势估计
原文中文,约300字,阅读约需1分钟。发表于: 。提出用于在 on-policy actor-critic 设置中实现最大熵强化学习 (MaxEnt RL) 的简单方法,并通过扩展 Proximal Policy Optimisation (PPO) 和 Trust Region Policy Optimisation (TRPO) 来在 MuJoCo 和 Procgen 任务中提高策略优化性能,同时强调了 MaxEnt RL 增强泛化能力。
我们提出了一种新的最大熵强化学习框架EBFlow,集成了策略评估和策略改进步骤,支持多模态动作分布建模。实验结果显示,EBFlow在高维机器人任务上优于传统方法。