低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文研究了风险敏感的强化学习,通过固定风险容忍度最大化条件风险价值。使用CVaR RL在大规模状态空间中拓展推广CVaR RL,研究了低秩MDPs中的CVaR RL。提出了一种新颖的UCB奖励驱动算法,平衡勘探、开发和表征学习之间的相互作用。设计了离散LSVI算法作为规划预期,找到接近最优的策略。这是第一个在低秩MDPs中有效的CVaR RL算法。

🎯

关键要点

  • 研究风险敏感的强化学习,目标是通过固定风险容忍度最大化条件风险价值。
  • 在大规模状态空间中使用CVaR RL进行推广,功能逼近需部署。
  • 研究低秩MDPs中的CVaR RL,假设底层转移核函数具有低秩分解。
  • 提出新颖的UCB奖励驱动算法,平衡勘探、开发和表征学习之间的相互作用。
  • 算法的样本复杂度为Õ((H^7 A^2 d^4) / (τ^2 ε^2)),实现ε-最优CVaR。
  • 设计离散LSVI算法作为规划预期,能够在多项式时间内找到接近最优的策略。
  • 这是第一个在低秩MDPs中有效的CVaR RL算法。
➡️

继续阅读