在风险厌恶总奖励MDP中,状态政策是最优的
📝
内容提要
本研究解决了在折扣MDP中优化风险厌恶目标的难题,提出了在熵风险度量(ERM)和熵风险价值(EVaR)风险度量下,使用状态政策来简化分析和实现过程。研究表明,相较于折扣标准,总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。
➡️
本研究解决了在折扣MDP中优化风险厌恶目标的难题,提出了在熵风险度量(ERM)和熵风险价值(EVaR)风险度量下,使用状态政策来简化分析和实现过程。研究表明,相较于折扣标准,总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。