低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文研究了风险敏感的强化学习,通过固定风险容忍度最大化条件风险价值。使用CVaR RL在大规模状态空间中拓展推广CVaR RL,研究了低秩MDPs中的CVaR RL。提出了一种新颖的UCB奖励驱动算法,平衡勘探、开发和表征学习之间的相互作用。设计了离散LSVI算法作为规划预期,找到接近最优的策略。这是第一个在低秩MDPs中有效的CVaR RL算法。
🎯
关键要点
- 研究风险敏感的强化学习,目标是通过固定风险容忍度最大化条件风险价值。
- 在大规模状态空间中使用CVaR RL进行推广,功能逼近需部署。
- 研究低秩MDPs中的CVaR RL,假设底层转移核函数具有低秩分解。
- 提出新颖的UCB奖励驱动算法,平衡勘探、开发和表征学习之间的相互作用。
- 算法的样本复杂度为Õ((H^7 A^2 d^4) / (τ^2 ε^2)),实现ε-最优CVaR。
- 设计离散LSVI算法作为规划预期,能够在多项式时间内找到接近最优的策略。
- 这是第一个在低秩MDPs中有效的CVaR RL算法。
➡️