奖励模型合集有助于缓解过度优化

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究使用深度神经网络同时学习模型和策略,提出使用模型集合来维护模型的不确定性并规范学习过程。通过使用“likelihood ratio”导数,可以获得更加稳定的学习。该方法在连续控制基准任务中,显著减少了比基于模型的深度RL方法所需的样本数量。

🎯

关键要点

  • 该研究使用深度神经网络同时学习模型和策略。
  • 分析了基于模型的增强学习方法的行为。
  • 学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。
  • 提出使用模型集合来维护模型的不确定性并规范学习过程。
  • 使用 'likelihood ratio' 导数可以获得更加稳定的学习。
  • 方法 ME-TRPO 在连续控制基准任务中显著减少了样本数量。
➡️

继续阅读