在风险厌恶总奖励MDP中,状态政策是最优的

📝

内容提要

本研究解决了在折扣MDP中优化风险厌恶目标的难题,提出了在熵风险度量(ERM)和熵风险价值(EVaR)风险度量下,使用状态政策来简化分析和实现过程。研究表明,相较于折扣标准,总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。

➡️

继续阅读