基于截断目标函数的消极策略优化的政策梯度
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
我们发现通过简单调整目标,用截断策略梯度替换PPO的重要性采样,可提升连续行动空间中的性能,促进探索,改善单任务、约束和多任务学习效果,且不增加计算成本。
🎯
关键要点
-
通过简单调整目标,可以提升连续行动空间中的性能。
-
将PPO的重要性采样目标替换为截断等价的基础策略梯度。
-
这种优化促进了增强性探索。
-
在单任务、约束和多任务学习中产生了改进的学习效果。
-
不增加显著的计算成本或复杂性。
🏷️
标签
➡️