风险厌恶 POMDP 的简化与绩效保证

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

这项研究使用部分可观察的马尔可夫决策过程(POMDPs)建模,并采用回报的条件风险价值(CVaR)作为值函数。通过使用计算代价更低的信念 - MDP 转移模型来限制值函数,该研究提供了对估计边界的理论性能保证。

🎯

关键要点

  • 在部分可观察域中,风险规避决策是人工智能领域的基本问题。
  • 本研究使用部分可观察的马尔可夫决策过程(POMDPs)建模。
  • 采用回报的条件风险价值(CVaR)作为值函数。
  • 开发了一个简化框架,以加快值函数的评估速度并提供性能保证。
  • 考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法。
  • 贡献包括一般的 CVaR 界限,通过假设两个累积分布之间的界限来限制随机变量的 CVaR。
  • 推导出 POMDP 设置下 CVaR 值函数的界限。
  • 展示了如何使用信念 - MDP 转移模型来限制值函数,而无需实时访问高昂的模型。
  • 提供了对估计边界的理论性能保证。
  • 结果适用于对信念 - MDP 转移模型的一般简化,能够同时简化观察和状态转移模型。
➡️

继续阅读