奖励模型合集有助于缓解过度优化
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究使用深度神经网络同时学习模型和策略,提出使用模型集合来维护模型的不确定性并规范学习过程。通过使用“likelihood ratio”导数,可以获得更加稳定的学习。该方法在连续控制基准任务中,显著减少了比基于模型的深度RL方法所需的样本数量。
🎯
关键要点
- 该研究使用深度神经网络同时学习模型和策略。
- 分析了基于模型的增强学习方法的行为。
- 学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。
- 提出使用模型集合来维护模型的不确定性并规范学习过程。
- 使用 'likelihood ratio' 导数可以获得更加稳定的学习。
- 方法 ME-TRPO 在连续控制基准任务中显著减少了样本数量。
➡️