离线多智能体强化学习的反事实保守 Q 学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该文介绍了置信度条件价值函数的学习方法,能够在训练时学习不同的保守程度,并在评估时动态地选择其中一种。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。

🎯

关键要点

  • 提出了一种新的学习价值函数的方法:置信度条件价值函数。
  • 该方法在训练时学习不同的保守程度,并在评估时动态选择。
  • 通过将现有算法的 Q 函数置信度化来实现。
  • 能够在任何期望的置信度下产生真实值的保守估计。
  • 实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。
➡️

继续阅读